앵커 기반 상관 설명을 통한 해석 가능한 토픽 모델링

본 논문은 전문가가 제시하는 ‘앵커’ 단어를 활용해 정보 이론적 목표인 총상관(Total Correlation)과 정보 병목(Information Bottleneck)을 결합한 Anchored CorEx 모델을 제안한다. 앵커를 통해 잠재 토픽을 의미론적으로 제어함으로써 기존 무지도 토픽 모델보다 더 일관되고 해석 가능한 토픽을 얻을 수 있음을 20 Newsgroups와 i2b2 비만 챌린지 데이터셋 실험을 통해 보였다.

저자: Kyle Reing, David C. Kale, Greg Ver Steeg

본 논문은 인간 전문가가 제공하는 ‘앵커’ 단어를 활용해 텍스트 코퍼스에서 해석 가능한 잠재 토픽을 추출하는 새로운 정보 이론적 프레임워크, Anchored CorEx를 제안한다. 기존의 토픽 모델링 방법은 주로 완전한 지도 학습이나 사전 정의된 확률적 구조에 의존하지만, 의료와 같은 도메인에서는 전문가의 직관적 지식이 풍부하지만 형식화하기 어렵다. 이를 해결하고자 저자들은 총상관(Total Correlation, TC) 기반의 CorEx와 정보 병목(Information Bottleneck, IB) 원리를 결합하였다. TC 목표는 관측 변수 X의 다변량 의존성을 잠재 변수 Y가 최대한 설명하도록 설계된다. TC(X;Y) = TC(X) − TC(X|Y) 형태이며, 최적화 과정에서 TC(X|Y) 를 최소화함으로써 Y가 X를 조건부 독립하게 만든다. 한편, IB 목표는 특정 앵커 변수 X_i와 잠재 변수 Y_j 사이의 상호정보 I(X_i;Y_j) 를 최대화한다. 이를 통해 전문가가 지정한 단어 집합 R = {(i,j)}가 학습 과정에서 보존되며, Y_j 가 해당 도메인 개념을 반영하도록 유도한다. 최종 목적 함수는 max_{p(y|x)}

앵커 기반 상관 설명을 통한 해석 가능한 토픽 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기