SynsetRank: 관계 식별을 위한 차수 보정 랜덤 워크
본 논문은 BabelNet의 의미 네트워크를 활용해 관계 추출에 필요한 트리거 synset을 자동으로 찾는 방법을 제안한다. 기존 PageRank 기반 랜덤 워크는 노드 차수에 따라 영향력이 약해지는 문제로 성능이 떨어졌으나, 초기 확률을 노드 차수로 정규화하는 “SynsetRank”를 도입해 이 문제를 해결한다. FB15K‑237 데이터셋의 13개 관계에 대해 실험한 결과, SynsetRank는 기존 Moro et al. (2013) 방법과 …
저자: Shinichi Nakajima, Sebastian Krause, Dirk Weissenborn
**1. 서론**
관계 추출은 대규모 텍스트에서 실세계 엔티티 간 관계를 식별하는 핵심 NLP 과제이다. 라벨링 비용이 높아 약한 감독(weak supervision) 방법이 많이 연구되었으며, 이때 lexical‑semantic 자원(WordNet, BabelNet)에서 제공하는 의미 정보를 활용하면 트리거 단어의 커버리지를 확대할 수 있다. 기존 방법들은 동의어 확장이나 유사도 계산에 초점을 맞췄지만, 실제로 어떤 synset이 특정 관계와 연관되는지를 명시적으로 식별하지는 못했다. Moro et al. (2013)은 관계 예시 문장에서 추출한 synset 빈도와 그 이웃을 결합해 서브그래프를 만들었지만, 그래프 구조 활용이 경험적이고 ad‑hoc했다는 한계가 있었다.
**2. 배경 및 관련 연구**
- **Lexical‑semantic 자원**: BabelNet은 WordNet과 Wikipedia를 통합한 다국어 의미 네트워크로, synset(동의어 집합)과 다양한 의미 관계(하이퍼님, 메로님 등)로 구성된 대규모 그래프이다.
- **관계‑관련 용어 추출**: TF‑IDF, 하이퍼님 기반 방법, WordNet 기반 트리거 리스트 등 다양한 접근이 있었지만, 자원 내부에서 관계‑특화 서브그래프를 자동으로 도출하는 연구는 드물다.
- **PageRank와 랜덤 워크**: 웹 페이지 순위 매김을 위해 제안된 PageRank는 확률적 행보를 통해 노드의 중요도를 평가한다. 이때 고차수 노드가 주변에 미치는 영향이 희석되는 특성이 있다.
**3. PageRank 기반 초기 시도**
논문은 먼저 PageRank를 그대로 적용해 synset를 순위 매김했다. 그래프 G=(V,E)는 BabelNet의 9M synset과 262M 링크를 사용했으며, 29개의 edge type을 양방향으로 확장해 총 58개의 레이블을 고려했다. 전이 행렬 Q₀는 각 레이블별 가중치 w_l(=1)로 가중합했으며, 텔레포트 α와 재시작 β, 자기루프 β를 도입해 수렴성을 보장했다. 초기 분포 p(0)는 관계 예시 문장에서 얻은 synset 빈도였다. 그러나 실험 결과, PageRank는 Moro et al. 베이스라인보다 낮은 AUC를 보였으며, 이는 웹 서핑 모델이 의미 그래프에 그대로 적용되기엔 부적합함을 시사한다.
**4. SynsetRank: 차수 보정 랜덤 워크**
핵심 아이디어는 “노드 차수에 관계없이 고빈도 synset이 이웃에게 동일한 영향력을 행사하도록 초기 확률을 보정”하는 것이다. 각 노드 i의 차수 d_i = Σ_j Σ_l w_l E^{(l)}_{i,j} 로 정의하고, 초기 확률을 b p(0)=p(0)⊙d^{-1} 로 변환한다. 이렇게 하면 고차수 노드라도 그 영향력이 차수에 의해 감소하지 않는다. 이후 동일한 PageRank 전이 행렬 Q와 파라미터(α,β,t)를 사용해 랜덤 워크를 수행한다. 이 방법을 SynsetRank라 명명하고, “degree‑adjusted random walk”라고 부른다.
**5. 실험 설계**
- **데이터**: FB15K‑237 (Freebase 기반 사실 삼중항 + 텍스트 멘션)에서 관계별 텍스트 멘션을 수집하고, Word‑Sense Disambiguation을 통해 synset 빈도 분포를 만든다.
- **관계 선택**: 멘션 수가 많은 20개 관계 중 의미 중복·경량 관계 7개를 제외하고 13개 관계를 실험 대상으로 선정하였다.
- **라벨링**: 각 관계에 대해 상위 50개 빈도 synset와 그 이웃을 추출하고, 인간 annotator가 긍정/부정 라벨을 부여해 평가 세트를 구성했다. 평균 2,857 synset(긍정:부정 ≈ 1:35) 규모다.
- **비교 방법**: (1) Frequency (원본 빈도 기반), (2) Moro et al. (2013) 베이스라인, (3) 일반 PageRank, (4) SynsetRank. 파라미터 α∈{0,0.2,…,1.0}, β∈{0,0.2,…,1.0}, t∈{1,…,5}를 검증 데이터로 그리드 탐색했다. 또한 “common” 파라미터(전체 관계에 동일)도 평가했다.
**6. 결과**
표 I에 제시된 AUC 결과에서 SynsetRank는 모든 13개 관계에서 최고 성능을 기록했으며, 평균 AUC는 0.716(±0.05)로 베이스라인(0.666)보다 약 0.05p 상승했다. 특히 “award”, “education”, “film” 등 다양한 도메인에서 일관된 개선을 보였다. 일반 PageRank는 평균 0.635로 베이스라인보다도 낮았다. 파라미터 최적화가 필요하지만, “common” 파라미터를 사용해도 평균 0.701의 AUC를 달성, 실용적인 적용 가능성을 시사한다.
**7. 논의 및 향후 연구**
- **차수 보정의 효과**: 고차수 노드가 이웃에게 미치는 영향력을 차수 역수로 보정함으로써, 빈도 높은 synset이 가진 의미적 중심성을 유지하면서 주변 노드까지 효과적으로 전파한다. 이는 관계 트리거 탐지라는 특수 목적에 PageRank의 “링크 희석” 현상이 오히려 방해가 된다는 점을 실증한다.
- **파라미터 의존성**: α, β, t는 관계마다 최적값이 다소 차이나지만, 전체 평균에 최적화된 공통값도 충분히 좋은 성능을 제공한다. 이는 실제 시스템에 적용할 때 파라미터 튜닝 비용을 크게 줄일 수 있음을 의미한다.
- **확장 가능성**: 현재는 모든 edge type에 동일 가중치(w_l=1)를 사용했지만, supervised random walk(Backstrom & Leskovec, 2011) 등을 통해 레이블 기반으로 w_l을 학습하면 더욱 정교한 의미 전파가 가능할 것이다. 또한 SynsetRank를 실제 관계 추출 파이프라인에 연결해 downstream F1 점수 향상을 검증하는 것이 다음 단계가 될 것이다.
**8. 결론**
본 논문은 BabelNet 기반 의미 그래프에서 관계 트리거 synset을 찾는 문제를 “차수 보정 랜덤 워크”라는 간단하지만 효과적인 방법으로 해결한다. 초기 확률을 노드 차수로 정규화함으로써 PageRank의 한계를 극복하고, 실험을 통해 기존 방법 대비 유의미한 성능 향상을 입증하였다. 향후 edge‑type 가중치 학습 및 실제 RE 시스템 적용을 통해 더욱 실용적인 지식 추출 프레임워크로 발전시킬 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기