대형 언어 모델 장문 질문응답의 불확실성 보정 평가
초록
본 논문은 과학 분야 장문 질문응답에서 대형 언어 모델(LLM)의 불확실성 정량화(UQ) 방법을 체계적으로 벤치마크한다. 20여 개 모델과 7개의 과학 QA 데이터셋(다중 선택·수학 문제 포함)에서 68만 5천 개의 응답을 수집·분석하고, 토큰‑레벨 확률, 언어화된 불확실성, 답변 일관성(샘플링 빈도) 등 대표적인 UQ 기법의 보정 정도를 평가한다. 토큰‑레벨 확률은 instruction‑tuning으로 인해 확률이 극단적으로 편향돼 보정이 크게 악화되며, 추론 파인튜닝 모델은 일부 제공자에서 완화 효과를 보인다. 시퀀스‑레벨에서는 언어화된 방법이 편향되고 정확도와 상관성이 낮은 반면, 답변 일관성은 가장 신뢰할 만한 보정 지표임을 확인한다. 또한 ECE만을 단일 지표로 사용할 경우 오해가 발생할 수 있음을 경고한다.
상세 분석
이 연구는 과학적 장문 QA라는 고난이도 도메인에서 LLM의 불확실성 추정이 실제로 얼마나 신뢰할 수 있는지를 최초로 대규모 실험을 통해 검증한다. 먼저 토큰‑레벨 확률을 이용한 전통적 UQ 방법을 살펴보면, instruction‑tuning을 거친 모델이 확률 분포를 극단적으로 한 토큰에 집중시키는 ‘확률 질량 편향(polarization)’ 현상을 보인다. 이는 토큰‑레벨 confidence가 실제 오류와 거의 무관하게 높은 값을 반환하게 만들어 보정 곡선이 크게 왜곡된다. 반면, 추론 전용 파인튜닝을 수행한 모델은 일부 제공자(예: OpenAI)에서 체인‑오브‑생각(Chain‑of‑Thought) 프롬프트가 중간 단계의 확률을 재분배함으로써 편향을 완화시키는 효과를 보였지만, 모든 모델에 일관되지는 않았다.
시퀀스‑레벨에서는 세 가지 접근법을 비교한다. 첫째, 모델에게 “이 답변에 얼마나 확신이 있나요?”와 같이 직접적인 언어화(Uncertainty Verbalization)를 요구하는 방법은, 모델이 학습된 표현 패턴에 따라 과도하게 자신감 있는 문구를 사용해 실제 정확도와 상관관계가 낮은 편향된 점수를 산출한다. 둘째, P(True)와 같은 확률적 추정은 토큰‑레벨 확률을 집계하지만, 앞서 언급한 토큰 편향이 그대로 전파돼 보정이 부실하다. 셋째, 답변 일관성(Consistency) 즉, 동일 질문에 대해 여러 샘플을 생성하고 가장 빈번히 등장하는 답변을 신뢰도 점수로 사용하는 방법은, 샘플 간 변동성을 직접 측정하므로 가장 높은 상관계수와 낮은 Expected Calibration Error(ECE)를 기록한다. 특히, 복잡한 수학·물리 문제에서 일관성 점수는 정답률과 거의 일치하는 보정 곡선을 보이며, 이는 다단계 추론 과정에서 누적된 불확실성을 효과적으로 포착한다는 점을 시사한다.
또한 저자들은 ECE만을 사용해 UQ 성능을 평가할 경우, 극단적인 확률 편향이 평균적인 오차를 과소평가하거나 과대평가할 위험이 있음을 실험적으로 입증한다. 따라서 Calibration Plot, Reliability Diagram, 그리고 Brier Score와 같은 다중 지표를 병행할 필요성을 강조한다.
마지막으로, 이 연구는 오픈소스 벤치마크 프레임워크를 제공하여 모델, 데이터셋, 프롬프트 변형, UQ 방법을 손쉽게 교체·확장할 수 있게 설계했다. 이는 향후 새로운 LLM이나 최신 UQ 기법이 등장했을 때 재현 가능하고 비교 가능한 실험 환경을 보장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기