LLM 가치 평가를 위한 설문 조사 방법의 신뢰성 재검토

LLM 가치 평가를 위한 설문 조사 방법의 신뢰성 재검토
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 가치 지향을 사회 설문지로 평가하는 기존 방법의 한계를 짚고, 프롬프트 방식(직접 vs. 사유 연쇄), 디코딩 전략(그리디 vs. 샘플링) 및 평가 지표(평균제곱오차, KL 발산, 새롭게 제안한 자기상관 거리)의 영향을 실험적으로 분석한다. 실험 결과, 사유 연쇄 프롬프트와 샘플링 디코딩이 인간 설문 응답과의 표면적 일치를 높이지만, 자기상관 거리에서는 구조적 정합성이 낮을 수 있음을 보여준다.

상세 분석

이 연구는 LLM이 인간 사회의 가치관을 얼마나 정확히 반영하는지를 측정하기 위해, 세계가치조사(World Value Survey, WVS)를 다국어(영어, 독일어, 체코어)와 다국가(미국, 영국, 독일, 체코, 이란, 중국)에서 적용하였다. 핵심 변수는 프롬프트 설계와 디코딩 방식이다. 직접적인 수치 응답을 요구하는 ‘직접 프롬프트’와, 답변 전 논리적 근거를 제시하도록 유도하는 ‘사유 연쇄(Chain‑of‑Thought, CoT) 프롬프트’를 비교했으며, 출력 생성에서는 가장 확률이 높은 토큰을 선택하는 그리디 디코딩과, 확률 질량의 90%를 포함하는 핵심 샘플링(nucleus 0.9, temperature 0.7)을 사용했다.

평가 지표는 기존에 널리 쓰이는 평균제곱오차(MSD)와 Kullback‑Leibler 발산(KLD) 외에, 설문 문항 간 상관관계를 고려한 ‘자기상관 거리(self‑correlation distance)’를 새롭게 도입했다. 자기상관 거리는 인간 응답과 모델 응답 각각에 대해 질문 쌍 간 피어슨 상관행렬을 만든 뒤, Frobenius norm을 통해 두 행렬의 차이를 정량화한다. 이는 개별 문항 일치 여부만 보는 기존 지표와 달리, 가치 체계 전체의 구조적 일관성을 평가한다.

실험 결과, CoT 프롬프트와 샘플링 디코딩을 결합한 경우, 특히 Mistral 2 모델이 미국 데이터와의 MSD 0.022, KLD 0.26이라는 인간‑모델 차이를 서구 국가 간 차이 수준(예: USA‑UK MSD 0.009)과 비슷하게 낮추었다. 반면 동일 모델을 그리디 디코딩으로 실행하면 MSD가 0.188로 급격히 악화돼, 서구‑이란 차이보다도 큰 편차를 보였다. LLaMA 3은 CoT+샘플링에서 중간 수준(MSD 0.059, KLD 1.47)을 기록했으며, EuroLLM은 직접 프롬프트와 그리디 디코딩에서 가장 큰 차이를 보였지만 샘플링을 적용하면 개선되었다. Qwen 2.5는 전반적으로 안정적인 성능을 보였지만, 설정에 따라 MSD가 0.041에서 0.199까지 변동했다.

자기상관 거리 측면에서는, 표면적 일치가 높은 설정이라도 인간 응답의 상관구조와는 크게 달라지는 경우가 발견되었다. 예를 들어, Mistral 2의 CoT+샘플링은 낮은 MSD와 KLD를 보였지만, 자기상관 거리에서는 인간‑모델 간 차이가 0.78에 달해, 인간 가치 체계의 내부 연관성을 충분히 재현하지 못했다. 반대로, EuroLLM은 직접 프롬프트와 그리디 디코딩에서 높은 MSD와 KLD를 기록했지만, 자기상관 거리는 비교적 낮아(0.62) 인간과 유사한 구조적 패턴을 유지하고 있음을 시사한다.

이러한 결과는 설문 기반 LLM 평가가 ‘평균 일치’와 ‘구조적 일치’를 동시에 고려해야 함을 강조한다. 단순히 평균값이나 분포 차이만을 보는 기존 방법은 모델이 실제로 인간과 같은 가치 네트워크를 형성했는지 판단하기에 부족하다. 또한, 샘플링 기반 디코딩을 다수(수십) 수행해 평균을 내는 것이, 한 번의 그리디 출력보다 더 신뢰할 수 있는 평가를 제공한다는 점을 실증했다.

마지막으로, 논문은 향후 연구 방향으로 (1) 사유 연쇄 프롬프트를 기본으로 채택, (2) 핵심 샘플링을 다중 샘플(30~100개)로 수행, (3) MSD, KLD, 자기상관 거리 등 복합 지표를 함께 사용해 모델의 가치 정합성을 다각도로 검증할 것을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기