LLM의 말과 마음을 일치시키는 신뢰도 정렬 기술

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 연구는 대규모 언어 모델(LLM)이 자신의 답변에 대해 말로 표현하는 ‘언어화된 신뢰도’와 모델 내부 토큰 확률로 계산되는 ‘내부 신뢰도’ 사이의 불일치를 해결하는 방법을 제안합니다. Direct Preference Optimization(DPO)을 활용해 두 신뢰도를 정렬하는 ‘Direct Confidence Alignment(DCA)’ 기법을 소개하며, 이는 모델의 투명성과 신뢰성을 높이는 데 기여할 수 있습니다. 다양한 오픈소스 LLM과 데이터셋에서의 실험 결과, 특정 모델에서는 효과가 뚜렷했으나 다른 모델에서는 효과가 제한적이어서 모델 의존적 접근의 필요성을 시사합니다.

상세 분석

본 논문의 핵심 기술적 기여는 정답 정확도가 아닌 모델 자체의 내부 상태를 기준으로 언어화된 신뢰도를 정렬한다는 점입니다. 기존 보정(Calibration) 연구가 모델의 신뢰도와 실제 정답률의 일치를 목표로 했다면, DCA는 ‘내부 신뢰도(Ci)‘를 기준 신호로 삼아 ‘언어화된 신뢰도(Cv)‘를 DPO로 정렬합니다. 이는 모델이 내부적으로 느끼는 불확실성을 외부 표현에 더 정직하게 반영하도록 유도하여, 사용자에게 모델의 판단 근거를 더 투명하게 전달하려는 목적을 가집니다.

실험 방법론에서 주목할 점은 DPO 학습 데이터를 생성하는 방식입니다. 모델의 원본 응답(Cv 포함)과 내부 신뢰도 값(Ci)으로 Cv 부분만 수정한 응답을 생성한 후, 수정된 응답을 ‘선호됨(chosen)’, 원본 응답을 ‘비선호됨(rejected)‘으로 레이블링합니다. 이는 복잡한 보상 모델 학습 없이 상대적 선호도 데이터만으로 정렬을 가능하게 하는 효율적인 전략입니다.

평가 측면에서 Spearman 상관계수(ρ) 외에 새롭게 제안한 세 가지 보정 오차 기반 지표(σϵ, |ϵ|, σM)는 단순 상관관계 이상으로 두 신뢰도 값의 절대적 차이와 변동성을 정량화합니다. 이를 통해 정렬의 ‘정확도’뿐만 아니라 ‘일관성’과 ‘안정성’까지 종합적으로 평가할 수 있는 틀을 마련했습니다.

결과에서 Gemma-2-9B-Instruct가 가장 극적인 개선을 보인 반면, Mistral-7B-Instruct와 Llama-3.2-3B-Instruct에서는 데이터셋에 따라 효과가 들쭉날쭉했습니다. 이는 DCA의 효과가 모델 아키텍처, 사전 학습 데이터, 지시 튜닝 방식 등에 크게 의존할 수 있음을 시사합니다. 특히 Gemma 모델의 경우 사전에 Cv와 Ci가 모두 높은 신뢰도 값(90-100%)으로 치우쳐 있어 DPO 학습이 기존 편향을 강화하는 결과를 낳았을 가능성이 지적됩니다. 이는 방법론의 한계이자 향후 연구 과제로, 보다 다양한 신뢰도 분포를 가진 모델에 대한 일반화된 정렬 방법이 필요함을 보여줍니다.

LLM의 말과 마음을 일치시키는 신뢰도 정렬 기술

초록

상세 분석

댓글 및 학술 토론

의견 남기기