감정 어휘 양대국 교차 데이터셋 EVOKE 소개
초록
EVOKE는 한국어와 영어 감정 어휘를 포괄적으로 수집·주석한 병렬 데이터셋으로, 1,427개의 한국어 단어와 1,399개의 영어 단어를 포함한다. 다중 의미·다중 번역 관계, 다의성·은유 관계를 체계적으로 표기했으며, 819개 한국어와 924개 영어 형용·동사를 14가지 기준으로 주석하였다. 연구자는 이 자료를 감정 과학·언어학·NLP 분야에서 이론·문화 간 비교 및 감정 어휘 탐색에 활용하도록 제안한다.
상세 분석
EVOKE는 감정 어휘 연구의 장기적인 난제인 ‘포괄성’과 ‘이론 중립성’을 동시에 달성하려는 시도로 눈에 띈다. 먼저 단어 선정 단계에서 기존 감정 어휘 연구(Baron‑Cohen et al., 2010; Park & Min, 2005 등)와 한국어 감정 어휘 사전(Jeon et al., 2022 등)을 통합해 1,400여 개 규모의 후보군을 구축했다. 이때 두 언어 간 1:1 번역이 불가능한 경우를 대비해 ‘다대다’ 매핑을 허용했으며, 실제 번역 과정에서는 두 개의 한국‑영어 사전과 영·한 단일 사전을 교차 검증해 의미 일치를 최대화했다.
주석 설계는 14개의 이진 라벨을 포함하는 4개 섹션으로 구성된다. 섹션 1은 ‘I feel X’, ‘They feel X’, ‘It feels X’, ‘I am X’와 같은 네 가지 문맥에서의 수용성 판단을 통해 감정 어휘가 주관적 경험을 표현하는지 검증한다. 섹션 2는 이러한 수용성 판단을 기반으로 ‘주관적 경험’, ‘평가적 경험’, ‘원인·결과 관계’를 추가로 묻는 확장 질문을 제시한다. 섹션 3은 ‘순수 신체감각’, ‘행동 표현’, ‘순수 인지 상태’와 같은 배제 기준을 적용해 비감정 어휘를 걸러낸다. 마지막 섹션 4는 다의성 검출을 목표로 ‘추가 의미 존재 여부’, ‘의미 영역 구분’, ‘의미 간 관계’를 기록한다.
주석자는 각각 한국어·영어 원어민 3명씩으로 구성됐으며, 1주일 교육 후 10주에 걸쳐 라벨링을 수행했다. 각 라벨은 ‘불확실(unsure)’ 옵션을 허용해 주관적 판단의 애매성을 보존했으며, 불확실 표기는 주간 회의에서 재검토했다. 인터‑레이터 신뢰도 평가는 10 % 중복 라벨링을 통해 이루어졌지만, 합의 강제 대신 다수 의견을 유지해 실제 사용 상황의 다양성을 반영했다.
데이터셋 구조는 (1) 한국‑영어 다대다 매핑, (2) 한국어 어휘 주석, (3) 영어 어휘 주석의 세 파트로 나뉜다. 각 어휘는 형태소(형용·동사)와 어근 관계(명사‑형용, 동사‑형용)까지 상세히 기록돼, 어휘 간 구조적 연관성을 탐색할 수 있다. 특히 다의성 라벨링은 ‘부끄러움/수치심’처럼 문화적·정서적 차이를 드러내는 은유적 확장을 포착한다.
EVOKE의 주요 기여는 다음과 같다. 첫째, 기존 감정 어휘 데이터베이스가 제한적이었던 ‘포괄성’ 문제를 해결해 두 언어의 거의 전체 감정 어휘를 수록했다. 둘째, 이론‑중립적인 라벨링 체계는 감정 연구자들이 자신들의 이론적 프레임에 맞게 데이터를 필터링·재구성할 수 있게 한다. 셋째, 다대다 번역 매핑과 다의성·은유 관계 표기는 문화 간 감정 개념의 차이를 정량·정성적으로 분석할 수 있는 기반을 제공한다. 넷째, 공개된 GitHub 레포지토리를 통해 재현 가능성과 확장성을 확보했다.
하지만 몇 가지 제한점도 존재한다. 주석자는 소수(6명)이며, 문화적 다양성을 충분히 반영했는지 검증이 필요하다. 또한 ‘불확실’ 라벨을 그대로 유지함으로써 데이터 정제 단계에서 추가적인 신뢰도 향상이 요구된다. 마지막으로 현재는 한국어와 영어에만 국한돼 있어, 다른 언어와의 비교 연구를 위해서는 추가적인 언어 확장이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기