선언‑실현 선호 격차: 프로토콜이 언어 모델 선호 일관성에 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 24개의 대형 언어 모델을 대상으로 선호를 묻는 방식(프로토콜)이 선언‑실현(SvR) 선호 상관관계에 미치는 영향을 체계적으로 조사한다. 중립·포기 옵션을 허용한 선언적 선호 수집은 상관계수를 크게 높였지만, 실현 상황에서도 중립을 허용하면 상관계수가 거의 0에 가깝거나 음수로 급락한다. 또한, 모델 자체의 선언적 가치 순위를 시스템 프롬프트에 삽입해 실현 선호를 유도하는 ‘프롬프트 스티어링’은 일관된 개선을 보이지 않는다. 결과적으로 SvR 상관관계는 프로토콜에 크게 의존하며, 불확정적 선호를 고려한 평가 방법이 필요함을 강조한다.

상세 분석

이 연구는 기존의 강제 이진 선택 방식이 모델의 진정한 선호를 왜곡할 가능성을 지적하고, 두 단계(선언적 vs 실현적)에서 선택지를 확장하는 실험 설계를 도입했다. 선언적 선호 단계에서 ‘Equal Preference’와 ‘Depends’를 허용하면 모델이 약하거나 모호한 비교를 스스로 배제하게 되고, 결과적으로 강제 이진 선택만을 기반으로 만든 순위보다 더 신뢰할 수 있는 가치 계층을 도출한다. 이는 스피어만 ρ가 0.2 수준에서 0.7 수준으로 급격히 상승한 점에서 확인된다. 반면, 실현적 선호 단계에서도 동일한 중립 옵션을 허용하면 다수 모델이 ‘Depends’ 혹은 ‘Equal Preference’를 과도하게 선택한다. 이러한 높은 중립 비율(특히 Mistral‑3‑8B 계열에서 거의 100%에 육박) 때문에 이진 선택만 남겨두었을 때 순위가 희소해지고, 스피어만 ρ가 0에 가깝거나 음수로 전락한다. 즉, 실현 상황에서는 모델이 실제 행동을 결정할 충분한 신호가 부족함을 의미한다.

프롬프트 스티어링 실험에서는 각 모델의 선언적 순위를 시스템 프롬프트에 삽입해 실현적 선택을 유도했지만, 효과는 일관되지 않았다. 일부 모델(예: Ministral‑3B, Gemma‑3‑4B)은 소폭 개선했으나, Claude 계열은 오히려 상관성이 감소했다. 이는 가치 개수가 16개로 확대될수록 단순 텍스트 삽입만으로 모델의 내부 가치 체계를 재구성하기 어렵다는 기존 연구(Liu et al., 2025)와 일치한다.

전체적으로, 논문은 SvR 상관관계가 “프로토콜‑의존적”임을 실증하고, 중립·포기 옵션을 적절히 활용해 선언적 선호는 정제하되, 실현적 선호에서는 중립을 어떻게 처리할지 별도의 메커니즘(예: 확률적 선택, 다중 샘플링) 없이 단순히 제외하면 평가가 왜곡된다는 점을 강조한다. 향후 연구는 불확정적 선호를 정량화하고, 스티어링을 위한 보다 강력한 방법(예: 미세조정, 보상 모델 통합) 개발이 필요함을 시사한다.

선언‑실현 선호 격차: 프로토콜이 언어 모델 선호 일관성에 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기