다국어 가치 평가를 위한 XValue 벤치마크
초록
본 논문은 대규모 언어 모델(LLM)의 가치 판단 능력을 평가하기 위해 18개 언어·7개 가치 영역을 포괄하는 XValue 벤치마크를 제안한다. 5천 개 이상의 질문‑답변(QA) 쌍을 ‘합의‑다원주의’ 두 단계로 라벨링하고, 난이도를 쉬움·어려움으로 구분한다. 실험 결과 최신 SOTA 모델조차 전체 정확도가 77 % 이하이며, 언어별·도메인별 성능 격차가 20 % 이상임을 보여준다.
상세 분석
XValue는 기존 안전성 평가가 폭력·혐오와 같은 명시적 해악 탐지에 머무는 한계를 극복하고자, 디지털 콘텐츠에 내재된 ‘가치’라는 심층적 차원을 정량화한다는 점에서 혁신적이다. 먼저 Schwartz의 기본 인간 가치 이론을 토대로 ‘거버넌스·정치’, ‘주권·안보’, ‘역사·정체성’, ‘인종·형평’, ‘신념·표현’, ‘성·권리’, ‘안전·윤리’ 등 7개 도메인을 정의하고, 각 도메인에 해당하는 가치 항목을 16가지로 세분한다. 데이터는 Reddit 등 온라인 플랫폼에서 27 000여 개의 질문을 수집하고, 각각에 대해 ‘정상 답변’과 ‘위험 답변’ 두 버전을 LLM을 활용해 보강한다. 이렇게 구성된 54 000여 개의 QA 쌍을 사전 평가 모델 3종(Qwen3‑Plus, GPT‑5.2, Gemini‑3‑Pro)으로 가치 적합성을 판단해, 모델 간 의견이 일치하면 ‘쉬움’, 불일치하면 ‘어려움’으로 라벨링한다.
주목할 점은 두 단계 라벨링 프로세스이다. 1단계에서는 해당 이슈가 국제적 합의(예: 인권·테러 방지)인지, 문화·종교 등에서 다원주의적 견해가 존재하는지 판별한다. 2단계에서는 합의 이슈는 명확히 그 합의를 따르는지, 다원주의 이슈는 중립·포용적 서술을 유지하는지를 평가해 ‘가치‑적합’·‘가치‑부적합’ 이진 라벨을 부여한다. 라벨링은 각 언어별 원어민 2인·제3인 검증 체계로 신뢰성을 확보하고, 쉬운 샘플에 대해 사전 LLM 판단과 90 % 이상의 일치율을 요구한다.
실험에서는 GPT‑5.2, Gemini‑3‑Pro, Claude‑Opus‑4.5 등 8개 최신 모델을 평가했으며, 쉬운 샘플에서는 92 % 이상, 어려운 샘플에서는 66 % 이하의 정확도를 기록했다. 특히 언어별 성능 차이가 20 %를 초과해, 비영어권 모델의 가치 판단 능력이 현저히 낮음을 드러냈다. 모델 규모와 성능 사이에는 양의 상관관계가 관찰됐지만, 규모 확대만으로는 다원주의 이슈에 대한 미묘한 가치 차이를 포착하기엔 부족함을 시사한다.
이 논문은 가치‑중심 안전성 평가라는 새로운 연구 패러다임을 제시하고, 다국어·다문화 환경에서 LLM이 직면한 윤리·사회적 도전을 정량화한다는 점에서 학술적·실무적 의의를 가진다. 다만, ‘위험 답변’ 생성에 사용된 비공개 LLM과 라벨링 기준의 주관성, 그리고 특정 문화권(예: 중동·동남아) 데이터 부족 등은 향후 보완이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기