관계형 데이터의 판별적 확률 모델

초록

이 논문은 관계형 데이터에서 라벨 간 상관관계를 고려한 판별적 학습을 위해 조건부 마코프 네트워크 기반 모델을 제안한다. 기존의 확률 관계 모델(PRM)이 갖는 방향성·비순환 제약을 없애고, 조건부 가능도 최대화를 통해 분류 정확도를 크게 향상시킨다. 웹페이지 분류 실험을 통해 집합적 라벨링의 효과를 입증한다.

상세 분석

본 연구는 관계형 데이터에서 개별 객체의 라벨이 서로 의존한다는 사실에 주목한다. 전통적인 독립적 분류기들은 이러한 의존성을 무시함으로써 정보 손실이 발생한다. 기존에 제안된 확률 관계 모델(Probabilistic Relational Models, PRM)은 베이지안 네트워크를 확장한 형태로, 객체 간 관계를 방향성 있는 그래프로 표현한다. 그러나 베이지안 네트워크는 사이클을 허용하지 않으므로, “링크된 페이지가 서로 라벨을 교환한다”와 같은 복합적인 상호작용을 모델링하기 어렵다. 또한 PRM은 주로 생성적 학습(generative learning)을 사용해 전체 결합가능도를 최대화하는데, 이는 라벨 예측에 직접적인 목적함수를 제공하지 않아 분류 성능이 제한된다.

이에 저자들은 무방향 그래프인 조건부 마코프 네트워크(Conditional Markov Network, CMN)를 기반으로 한 판별적 모델을 설계한다. CMN은 각 객체와 관계를 노드와 에지로 표현하면서, 라벨 변수와 관측 특성 사이에 잠재적인 상호작용을 자유롭게 정의할 수 있다. 특히, 에지 잠재함수(edge potential)를 통해 두 페이지 사이의 하이퍼링크가 라벨 동조성을 촉진하도록 설계할 수 있다. 이러한 무방향 구조는 사이클을 자연스럽게 포함하므로, 복잡한 관계 패턴을 손실 없이 표현한다.

학습 단계에서는 조건부 로그우도(conditional log‑likelihood)를 직접 최적화한다. 저자는 대규모 그래프에 적용 가능한 준최적화 기법으로, 라벨이 부분적으로 관측된 상황에서도 효율적인 파라미터 추정을 가능하게 하는 ‘가중치 공유(weight tying)’와 ‘정규화된 라그랑주 승수’를 도입한다. 또한, 근사 추론 방법으로는 변분 베일리프 전파(variational belief propagation)와 라우드-맥케이(LBP) 알고리즘을 활용해, 학습 중에 필요한 기대값을 빠르게 계산한다.

실험에서는 웹페이지 분류 데이터셋을 사용해, 전통적인 SVM·Naïve Bayes와 PRM 기반 모델을 비교한다. 관계형 잠재함수를 포함한 CMN 모델은 라벨 간 상관관계를 효과적으로 활용해 평균 정확도가 8~12% 포인트 상승했으며, 특히 라벨이 희소한 소수 클래스에서 큰 개선을 보였다. 또한, 집합적 추론(collective inference) 단계에서 라벨 전파가 진행될수록 정확도가 점진적으로 상승하는 현상이 관찰되었다.

이 논문의 핵심 기여는 (1) 관계형 데이터에 적합한 판별적 무방향 확률 모델을 제시하고, (2) 조건부 가능도 기반 학습 프레임워크를 통해 라벨 예측 성능을 크게 향상시켰으며, (3) 근사 추론을 통한 실용적인 집합적 라벨링 절차를 제공했다는 점이다. 이러한 접근은 소셜 네트워크, 지식 그래프, 바이오인포매틱스 등 라벨 의존성이 중요한 다양한 도메인에 확장 가능하다.