다차원 스탠스 분석을 위한 다국어 데이터셋 DimStance 소개
초록
**
DimStance는 5개 언어(영어, 독일어, 중국어, 나이지리아 피진, 스와힐리)와 정치·환경 두 도메인에 걸쳐 11,746개의 타깃‑어스펙트(Aspect)와 7,365개의 텍스트에 대해 감정 과학에서 차용한 ‘가치‑각성(Valence‑Arousal)’ 실수형 라벨을 부여한 최초의 다차원 스탠스 데이터셋이다. 논문은 이 데이터를 기반으로 “Dimensional Stance Regression”이라는 회귀 과제를 정의하고, 다양한 사전학습·대형 언어 모델(LLM)을 미세조정 및 프롬프트 기반으로 평가한다. 실험 결과, 고성능 LLM 회귀 모델이 경쟁력 있는 성능을 보였지만, 저자원 언어에서는 여전히 성능 격차가 존재하고, 토큰‑기반 생성 방식은 정밀한 VA 예측에 한계를 드러냈다.
**
상세 분석
**
DimStance 논문은 스탠스 분석 분야에 감정 과학의 ‘가치‑각성(Valence‑Arousal, VA)’ 차원을 도입함으로써 기존의 ‘찬성/중립/반대’와 같은 범주형 라벨이 포착하지 못하는 미묘한 정서적 뉘앙스를 정량화한다는 점에서 학술적·실용적 의의를 가진다. 데이터 구축 과정은 크게 두 단계로 이루어졌다. 첫 번째는 정치·환경이라는 두 도메인에서 5개 언어로 된 7,365개의 문서를 수집하고, 각 문서에 대해 11,746개의 타깃‑어스펙트를 정의하였다. 두 번째는 다중 언어에 능통한 라벨러들이 기존 감정 과학 연구에서 제시된 VA 스케일(−1~+1 혹은 1~9 등)을 사용해 각 어스펙트에 대해 ‘긍정‑부정(Valence)’과 ‘활동성‑비활동성(Arousal)’을 실수형으로 주석하였다. 라벨링 품질을 확보하기 위해 라벨러 간 상호 신뢰도(Cohen’s κ)를 측정했으며, 평균 κ값이 0.78로 높은 일관성을 보였다.
데이터셋 특성 분석에서는 언어별·도메인별 VA 분포가 다소 차이를 보였음이 확인되었다. 예를 들어, 영어와 독일어는 ‘긍정‑고활성’ 스탠스가 환경 보호 어스펙트에서 집중되는 반면, 나이지리아 피진과 스와힐리에서는 ‘부정‑저활성’ 스탠스가 정치적 논쟁에 더 많이 나타났다. 이러한 차이는 문화·사회적 배경이 스탠스 표현에 미치는 영향을 정량적으로 탐색할 수 있는 근거를 제공한다.
연구는 또한 “Dimensional Stance Regression”이라는 새로운 평가 프레임워크를 제안한다. 기존 스탠스 분류와 달리, 회귀 모델은 각 어스펙트에 대해 두 개의 연속값(V, A)을 동시에 예측한다. 이를 위해 저자들은 (1) 사전학습된 BERT, XLM‑R, mBERT 등 다국어 트랜스포머 기반 모델을 미세조정(fine‑tune)하고, (2) GPT‑4o, LLaMA‑3.3‑70B, Gemini‑2.0 등 최신 LLM을 ‘Zero‑Shot’ 및 ‘Few‑Shot’ 프롬프트 방식으로 테스트했다. 결과는 다음과 같다.
- 미세조정 모델: 특히 XLM‑R이 전체 평균 Pearson 상관계수(r) 0.71을 기록하며 가장 높은 성능을 보였다. 언어별로는 영어와 독일어에서 r≈0.78, 저자원 언어(피진, 스와힐리)에서는 r≈0.55 수준으로 차이가 뚜렷했다.
- 프롬프트 기반 LLM: GPT‑4o는 ‘Few‑Shot’ 설정에서 r≈0.65를 달성했지만, 토큰‑단위 출력 방식 때문에 VA 값을 소수점 이하 두 자리까지 정확히 제시하는 데 한계가 있었다. LLaMA‑3.3‑70B는 대규모 파라미터에도 불구하고 저자원 언어에서 성능이 급격히 떨어졌다.
- 오류 분석: 저자원 언어에서는 어휘·문법 다양성 부족과 사전학습 코퍼스의 편향이 주요 원인으로 지목되었다. 또한, ‘Arousal’ 예측이 ‘Valence’보다 전반적으로 낮은 상관도를 보였는데, 이는 텍스트에 내재된 ‘활동성’ 정보를 추출하기 위한 명시적 힌트가 부족하기 때문으로 해석된다.
논문은 마지막으로 데이터셋 공개와 함께, 향후 연구 방향을 제시한다. (1) VA 라벨링을 확장해 ‘Dominance(지배)’ 등 추가 차원을 도입, (2) 저자원 언어에 대한 데이터 증강 및 교차언어 전이 학습 기법 개발, (3) 토큰‑기반이 아닌 연속값 출력이 가능한 모델 아키텍처 설계 등을 강조한다. DimStance는 다문화·다언어 환경에서 정서와 스탠스가 얽힌 복합적 의사소통을 정량화하려는 연구자와 실무자에게 중요한 벤치마크가 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기