프레임 의미론 기반 의미 변화 탐지: 해석 가능한 비지도 방법
초록
본 논문은 단어가 시간에 따라 참여하는 프레임의 분포 변화를 측정해 의미 변화를 탐지하는 비지도 방법을 제안한다. 영어 SemEval 2020 Task 1 데이터에 프레임 파서를 적용하고, Jensen‑Shannon Divergence로 두 시기의 프레임 분포 차이를 점수화한다. 실험 결과, 기존 임베딩 기반 모델들을 능가하며, 각 프레임별 기여도를 직접 확인할 수 있어 높은 해석 가능성을 제공한다.
상세 분석
이 연구는 의미 변화 탐지에 전통적인 분포 가설을 넘어 프레임 의미론을 활용한다는 점에서 혁신적이다. 먼저, 목표 단어가 등장하는 문장을 Lemma‑기반으로 추출하고, FrameNet 기반의 사전 학습된 Transformer 파서를 이용해 각 문장에서 프레임 트리거와 프레임 요소를 식별한다. 여기서 ‘프레임 트리거’는 해당 단어가 직접적으로 프레임을 일으키는 경우이며, ‘프레임 요소’는 단어가 프레임 내 역할을 수행하는 경우를 의미한다. 두 시기(예: 1810‑1860 vs 1960‑2010)의 프레임 출현 빈도를 확률 분포로 정규화한 뒤, Jensen‑Shannon Divergence(JSD)를 계산해 변화 점수를 산출한다. JSD는 0과 1 사이의 값으로 직관적이며, 각 프레임별 기여도를 분해할 수 있어 어떤 프레임이 변화에 주도적인 역할을 했는지 명확히 파악한다.
실험에서는 SemEval 2020 Task 1의 영어 서브코퍼스를 사용했으며, 이진 분류(Subtask 1)와 순위 매기기(Subtask 2) 두 과제에 적용하였다. 이진 분류에서는 JSD ≥ 0.5를 ‘변화 있음’으로 판정했으며, 순위 매기기에서는 JSD와 gold score 간의 Spearman 상관계수를 측정했다. 결과는 대부분의 정적 및 컨텍스트 임베딩 모델(Word2Vec, ELMo, BERT, S‑BERT 등)을 능가했으며, 특히 해석 가능성 측면에서 큰 장점을 보였다.
한계점으로는 현재 프레임 파서가 영어에만 충분히 성능을 보이며, 다른 언어(독일어, 스웨덴어, 라틴어)에서는 파서 품질이 낮아 실험을 진행하지 못했다는 점을 들었다. 또한, 프레임 자원 자체가 구축 비용이 크고, 역사적·도메인 특수 어휘에 대한 커버리지가 부족하다는 구조적 제약도 존재한다. 그럼에도 불구하고 프레임 의미론이 언어학적 이론과 자연스럽게 연결되어, 의미 변화 연구에 투명하고 설명 가능한 도구를 제공한다는 점에서 학술적·실용적 가치가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기