은유적 의미와 단어 표현을 활용한 메토님 식별 연구
초록
본 논문은 메타포 인식에 성공적으로 적용된 특징들을 메토님 탐지에 전이시켜, ACL SemEval 2007 Task 8의 위치 메토님 데이터에서 86.45%의 정확도를 달성하였다. 주요 기법으로는 어휘적 추상성·구체성 점수, 의미 영역, 워드 임베딩 및 컨텍스트 기반 표현을 결합한 지도 학습 모델을 사용하였다.
상세 분석
이 연구는 메토님을 메타포와 구조적으로 유사한 현상으로 보고, 기존 메타포 인식에서 활용된 특징들을 메토님 탐지에 적용한다는 전략적 전환을 시도한다. 먼저, 메타포 연구에서 널리 사용되는 추상성·구체성 사전(예: Brysbaert et al.)을 통해 대상 단어와 주변 문맥의 의미적 거리와 레벨을 정량화한다. 이어서 WordNet 기반 의미 영역(semantic fields)과 도메인 정보를 추출해, 특정 도메인에 속하는 단어가 비전형적인 도메인으로 전이될 때 메토님 가능성을 높이는 규칙을 만든다.
특히, 단어 수준의 분산 표현을 넘어 문맥 의존적 임베딩(BERT, ELMo 등)을 활용함으로써 동일 어휘라도 문맥에 따라 달라지는 의미 변화를 포착한다. 이러한 임베딩은 사전 훈련된 모델에서 추출한 토큰 레벨 벡터를 평균하거나, CLS 토큰을 이용해 문장 전체 의미를 요약한다. 추출된 특징들은 SVM, 로지스틱 회귀, 혹은 신경망 기반 분류기에 입력되어 지도 학습을 수행한다.
데이터는 SemEval 2007 Task 8의 위치 메토님 라벨이 포함된 코퍼스를 사용했으며, 교차 검증을 통해 하이퍼파라미터를 최적화하였다. 실험 결과, 전통적인 사전 기반 특징만을 사용한 베이스라인 대비 8~10%p의 정확도 향상이 관찰되었으며, 최종 모델은 86.45%라는 높은 정확도를 기록했다. 오류 분석에서는 지리적 명칭이 기관·조직을 의미할 때와, 문화적 상징이 물리적 장소를 가리킬 때 혼동이 발생함을 확인했다.
코드와 실험 재현을 위한 스크립트는 GitHub에 공개되어 있어, 연구 커뮤니티가 동일한 파이프라인을 손쉽게 적용·확장할 수 있다. 전체적으로 메타포 인식 기술을 메토님 탐지에 성공적으로 전이시킨 점이 본 연구의 핵심 기여이며, 의미론적 특성과 최신 언어 모델을 결합한 접근법이 향후 은유·메토님 연구에 유용한 베이스라인이 될 것으로 기대된다.