단어 중심 의미 그래프를 통한 시간적 의미 변화 추적

단어 중심 의미 그래프를 통한 시간적 의미 변화 추적
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 각 시점별로 정적 Skip‑gram 유사도와 시점 특화 마스크드 언어모델의 대체 가능성을 결합해 목표 단어 주변에 의미 그래프를 구축한다. 중심 단어를 제외한 주변 그래프의 연결 성분을 ‘sense community’로 정의하고, 시간 간 클러스터 겹침을 통해 의미 변화를 추적한다. 뉴욕 타임스 매거진(1980‑2017) 자료에 ‘trump’, ‘god’, ‘post’ 세 단어를 적용해, 그래프 연결성은 다의성을 반영하고, 클러스터 변동은 사건‑주도 교체, 안정적 과분할, 디지털 연관 전이 등 서로 다른 의미 변천 양상을 드러낸다. 사전 정의된 의미 사전 없이도 투명하고 압축된 의미 변화를 분석할 수 있다.

상세 분석

이 연구는 의미 변천을 탐지하기 위한 기존 방법들의 한계를 보완하고자, 정적 분포 기반 임베딩과 동적 컨텍스트 기반 마스크드 LM을 동시에 활용한다는 점에서 혁신적이다. 구체적으로, 각 시점 t에 대해 Word2Vec Skip‑gram 모델을 학습하고, 해당 시점의 텍스트에 RoBERTa‑masked LM을 파인튜닝한다. 목표 단어 w에 대해 정적 유사도 상위 k_i개의 이웃(N_dist)과 마스크드 LM이 제시하는 대체 후보 상위 k_c개의 이웃(N_sub)을 합쳐 1차 이웃 집합 N₁(w)을 만든다. 이후, 각 1차 이웃을 다시 동일 절차로 확장해 깊이 L까지 레이어드 그래프를 구축함으로써 직접·간접 의미 연결을 모두 포착한다.

그래프 구축 단계에서 두 종류의 엣지를 명시적으로 구분한다. 파란색은 Word2Vec 기반 코사인 유사도, 노란색은 RoBERTa 기반 대체 가능성을 나타내며, 두 관계가 동시에 존재하면 노란색으로 표시한다. 이러한 이중 관계 표시는 의미적 강도와 유형을 직관적으로 해석할 수 있게 한다.

핵심적인 의미 단위는 중심 노드 w를 제거한 주변 그래프 G_per에서 연결 성분(connected component)으로 정의한다. 이는 기존 클러스터링이 임베딩 공간에서 거리 기반으로 수행되는 것과 달리, 실제 단어 간 관계망의 구조적 연속성을 이용한다는 점에서 해석 가능성이 크게 향상된다. 연결 성분의 수와 크기는 다의성(polysemy)의 정도를 정량화하는 지표가 된다.

시간적 정렬은 단순히 노드 겹침(overlap) 비율을 최대화하는 방식으로 수행한다. 현재 시점 t의 클러스터 C_t^i와 이전 시점 t‑1의 모든 클러스터 C_{t‑1}^j 사이의 교집합 크기를 비교해 가장 큰 값을 갖는 클러스터를 매칭한다. 또한, 중간 시점에 사라졌다가 재등장하는 의미를 포착하기 위해 전체 히스토리(k<t)에서 최대 겹침을 찾는 AlignHist를 도입한다. 매칭되지 않은 클러스터는 ‘신규 의미’로 간주하고, 두 번 이상 지속되지 않는 클러스터는 잔여 클러스터에 합쳐 일시적·희귀 의미를 집계한다.

클러스터 크기를 정규화해 P_t(C_i|w)=|C_i|/∑_j|C_j| 형태의 의미 사용 분포를 추정한다. 이는 그래프 규모가 시점마다 달라도 비교 가능한 확률적 해석을 가능하게 한다.

실험에서는 1980‑2017년 사이 뉴욕 타임스 매거진(약 1억 토큰)에서 ‘trump’, ‘god’, ‘post’를 대상으로 분석하였다. ‘trump’는 1980년대에는 카드 게임 용어(‘diamond’, ‘heart’)와 연결돼 있었으나, 1990년대 이후 정치·미디어 연관어(‘whitehouse’, ‘democrat’)로 급격히 재구성되며 클러스터 교체가 뚜렷하게 관찰된다. 이는 사건‑주도 의미 교체(event‑driven sense replacement)를 보여준다. ‘god’는 전 기간에 걸쳐 높은 코사인 유사도(>0.9)를 유지하며 클러스터가 과도하게 세분화(over‑segmentation)되는 경향을 보였는데, 이는 실제 의미 변화는 적지만 그래프 구조가 과민하게 반응함을 의미한다. ‘post’는 초기에는 ‘position’, ‘paper’ 등 전통적 의미와 연결됐지만, 2000년대 이후 ‘share’, ‘socialmedia’ 등 디지털 커뮤니케이션 연관어로 전이하면서 클러스터 구성이 서서히 이동한다. 이는 의미가 점진적으로 연관어 집합을 재구성하는 gradual association shift를 시각화한다.

전반적으로, 이 접근법은 (1) 의미를 정적인 벡터가 아니라 관계망 구조로 모델링함으로써 다의성을 자연스럽게 드러내고, (2) 사전 정의된 의미 사전 없이도 시계열적 의미 변화를 추적할 수 있으며, (3) 그래프 시각화와 연결성 분석을 통해 연구자와 일반 독자 모두가 직관적으로 변천 양상을 파악할 수 있다는 장점을 제공한다. 다만, k_i, k_c, L 등 하이퍼파라미터 선택이 결과에 민감할 수 있고, 대규모 코퍼스에서 그래프 확장이 급격히 증가할 경우 계산 비용이 제약이 될 수 있다. 향후 연구에서는 자동 파라미터 최적화와 그래프 압축 기법을 도입해 확장성을 높이는 방안을 모색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기