빅그램 임베딩을 활용한 지식베이스 완성
본 논문은 지식베이스 완성(KBC)에서 개별 엔티티·관계 임베딩뿐 아니라 엔티티·관계 쌍(빅그램) 임베딩을 도입한다. 저자는 팩터라이제이션 머신(FM)을 기반으로 빅그램 임베딩을 학습하고, 다양한 빅그램 조합을 Ablation 실험을 통해 평가한다. fb15k237 데이터셋에서 (관계, 객체) 빅그램이 특히 효과적이며, 전체 FM보다 경량 빅그램 모델이 더 높은 MRR을 달성한다는 결과를 제시한다.
저자: Johannes Welbl, Guillaume Bouchard, Sebastian Riedel
이 논문은 지식베이스 완성(Knowledge Base Completion, KBC) 분야에서 기존의 단일 엔티티·관계 임베딩 방식이 갖는 한계를 극복하고자, 엔티티와 관계의 쌍, 즉 빅그램(bigram) 임베딩을 도입한다. 기존 모델들은 주어(s), 관계(r), 객체(o) 각각에 대한 저차원 벡터를 학습하고, 이를 점곱, 삼중곱, 혹은 복합 신경망 등으로 결합해 트리플의 진리값을 추정한다. 이러한 접근은 사실이 ‘합성적(compositional)’이라는 가정에 기반한다. 그러나 실제 지식베이스에서는 특정 관계와 제한된 객체 집합이 강하게 결합되는 경우가 많아, 단일 임베딩만으로는 비합성적 상호작용을 충분히 포착하기 어렵다.
이를 해결하기 위해 저자는 팩터라이제이션 머신(Factorization Machine, FM)을 활용한다. FM은 희소 피처 벡터 φ에 대해 선형 항과 저‑랭크 행렬 형태의 2차 상호작용을 동시에 학습하는 모델이다. 여기서 φ는 (s, r, o) 각각의 원-핫 인디케이터와 세 가지 빅그램( (s,r), (r,o), (o,s) ) 인디케이터를 연결(concatenation)한 6개의 활성 피처만을 포함한다. 각 피처 i는 k 차원의 임베딩 w_i 혹은 v_i 로 매핑되며, FM의 점수 함수는
X_f = Σ_{c∈U∪B} v_c + Σ_{c1,c2∈U∪B} ⟨w_{c1}, w_{c2}⟩
와 같이 표현된다. 여기서 U는 단일 유닛 집합, B는 빅그램 집합이다. 이 구조는 기존 트리플 기반 모델을 특수 케이스로 포함한다. 예를 들어, Universal Schema 모델(F)은 (s,o) 빅그램과 관계 r 사이의 내적만을 사용한다.
저자는 이 일반화된 점수 함수를 기반으로 다양한 Ablation 실험을 수행한다. 모델 (*)는 (s,o)‑r 조합, 모델 (**)는 (r,o)‑s 조합, 모델 (***)는 (s,r)‑o 조합을 각각 단일 빅그램과 대응 유닛만 사용한다. 또한, 이 세 모델을 합친 (+) 모델은 각 빅그램을 독립적으로 사용하면서도 전체 FM보다 파라미터가 적다.
학습 목표는 로지스틱 손실의 변형으로, 양성 사실에 대해 −log σ(X_f) 를 최소화하고, 음성 사실에 대해 가중치 η 를 곱한 −log σ(−X_f) 를 최소화한다. 이는 양성 샘플이 올바르게 예측될 때 손실이 크게 감소하도록 설계된 비표준 형태이며, L2 정규화와 결합해 안정적인 최적화를 보장한다.
실험은 Freebase 기반의 fb15k237 데이터셋을 사용한다. 학습은 Adam 옵티마이저(learning rate 1.0, batch size 1024)와 k 차원의 임베딩을 통해 진행되며, 텍스트 기반 언어 경로(텍스트 멘션, TM)의 중요도를 τ 로 조절한다. 결과표 1은 다양한 모델의 MRR 및 HITS@1~10을 보여준다. 전체 FM이 모든 빅그램을 동시에 사용했음에도 불구하고, 경량 모델인 (r,o)‑s, (s,r)‑o, (s,o)‑r 조합을 각각 독립적으로 학습한 모델이 전체 FM보다 높은 성능을 기록한다. 특히 (r,o) 빅그램 모델(**)은 전체 MRR 36.2%와 HITS@10 47.4%를 달성해, 관계와 객체가 강하게 결합된 경우에 큰 이점을 제공한다.
데이터 분석을 통해 테스트 트리플 중 73%는 (s,o) 빅그램이 훈련에 등장하지 않아 0 임베딩이 사용되었고, (r,o)와 (s,r) 빅그램은 각각 10%와 24%만이 미관측 상태였다. 따라서 (r,o) 빅그램이 상대적으로 풍부히 관측된다는 점이 모델(**)의 우수성을 설명한다. 또한, 관계가 제한된 객체 집합을 갖는 경우(예: “eating/practicer of diet”와 “Veganism”)에 (r,o) 빅그램 모델이 상위 2위 안에 정답을 배치하는 등 실용적 효과가 입증되었다.
결론적으로, FM 기반 빅그램 임베딩은 기존 단일 엔티티 임베딩에 비해 비합성적 관계를 효과적으로 포착한다. 특히 (관계, 객체) 빅그램이 데이터에 충분히 존재할 때 큰 성능 향상을 기대할 수 있다. 향후 연구는 시간, 출처, 컨텍스트 등 고차원 정보와의 결합을 통해 더욱 풍부한 고차원 임베딩을 설계하는 방향으로 나아갈 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기