다국어 대형 언어모델의 정치적 편향 평가와 교차언어 정렬 스티어링

다국어 대형 언어모델의 정치적 편향 평가와 교차언어 정렬 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 50개국·33개 언어에 걸친 대규모 정치 나침반 테스트(PCT) 평가를 통해 다국어 LLM의 경제·사회 축 편향을 정량화한다. 기존 스티어링 기법이 언어별 이념 표현을 동일하게 가정하는 한계를 지적하고, 언어별 잠재 이념 벡터를 공유 서브스페이스로 정렬한 뒤 불확실성에 기반해 조정 강도를 동적으로 조절하는 Cross‑Lingual Alignment Steering(CL​AS)를 제안한다. 실험 결과, CLAS는 Mistral‑7B‑Instruct와 DeepSeek‑LLM‑7B‑Chat에서 편향을 크게 감소시키면서 응답 품질 저하를 최소화한다.

상세 분석

이 논문은 두 가지 핵심 기여를 제시한다. 첫째, Political Compass Test(PCT)를 다국어·다국가 규모로 확장해 50개국·33개 언어에 대해 경제(좌‑우)와 사회(자유‑권위) 축의 이념 스코어를 측정한다. 각 진술에 대해 4단계 Likert 응답을 연속형 S∈


댓글 및 학술 토론

Loading comments...

의견 남기기