다중 정답 질문에서 LLM 신뢰도 평가와 보정
초록
본 논문은 다중 정답을 갖는 사실 질문에 대해 기존 훈련‑무료 신뢰도 보정 방법이 과소평가되는 문제를 규명하고, 12,000개의 질문으로 구성된 MACE 벤치마크를 제시한다. 15가지 보정 기법과 4가지 LLM 계열(7B‑72B) 실험을 통해 정답 수가 늘어날수록 정확도는 상승하지만 추정된 신뢰도는 감소함을 확인한다. 이를 해결하기 위해 다수 고확률 응답을 합산하는 Semantic Confidence Aggregation(SCA)을 제안하여, 다중 정답 상황에서도 기존 최첨단 방법보다 우수한 보정 성능을 달성한다.
상세 분석
이 연구는 LLM의 신뢰도(calibration) 문제를 기존의 단일 정답 QA에 국한된 접근에서 벗어나, 다중 정답이 존재하는 현실적인 시나리오로 확장한다. 기존의 훈련‑무료 보정 방법은 크게 토큰‑레벨 확률 평균, 모델 자체의 신뢰도 언어화, 그리고 다중 샘플 간 일관성 측정으로 구분된다. 특히 일관성 기반 방법은 “다양한 샘플이 일치할수록 정답 가능성이 높다”는 가정을 전제로 하지만, 다중 정답 질문에서는 서로 다른 정답이 모두 올바른 경우 일관성이 낮아져 신뢰도가 인위적으로 감소한다. 논문은 이를 정량적으로 입증하기 위해, 정답 수가 1, 2, 4, 6개인 질문을 각각 500개씩 포함한 MACE 벤치마크를 구축하였다.
실험 결과, 모델 규모가 클수록(예: 70B) 정답 후보를 더 다양하게 생성하는 경향이 있어, 다중 정답 상황에서 일관성 기반 보정이 특히 크게 오차를 보였다. 반면 정확도는 정답 수가 늘어날수록 상승했으며, 이는 “하나라도 맞으면 정답”이라는 평가 기준 때문이었다. 따라서 기존 방법들은 정확도와 신뢰도 사이에 역전 현상을 일으키며, 실제 서비스에서 과도한 불확실성 경고를 발생시킬 위험이 있다.
이 문제를 해결하기 위해 제안된 SCA는 각 샘플의 토큰‑레벨 생성 확률을 그대로 활용해, 고확률 응답들을 단순 합산한다. 핵심 아이디어는 “정답이 여러 개일 때, 가장 높은 확률을 가진 하나의 응답만을 신뢰도 지표로 삼는 것이 아니라, 여러 정답에 걸친 확률 질량을 모두 고려한다”는 것이다. 이렇게 하면 정답 후보가 분산돼 있더라도 전체 확률 질량이 크게 유지되어 신뢰도가 과소평가되지 않는다.
SCA는 단일 정답 질문에서도 기존 최고 성능을 유지하면서, 다중 정답 질문에서는 AUROC와 ECE(예측 오차) 모두에서 현저히 개선된 결과를 보였다. 특히 4a, 6a 설정에서 기존 일관성 기반 방법이 0.55 수준이던 AUROC를 0.71까지 끌어올렸으며, ECE는 0.12에서 0.04로 감소했다. 이는 모델이 실제로 가지고 있는 지식 수준을 보다 정확히 반영한다는 의미이다.
또한, 다양한 LLM 계열(Qwen, LLaMA, DeepSeek, GPT)과 파라미터 규모에 걸친 포괄적 실험을 통해 SCA의 일반화 가능성을 검증하였다. 큰 모델일수록 정답 후보가 다양해지는 현상이 두드러졌지만, SCA는 이러한 현상을 오히려 활용해 신뢰도 추정의 안정성을 높였다.
결론적으로, 이 논문은 다중 정답 QA에서 신뢰도 보정이 필수적이며, 기존 방법이 갖는 근본적인 가정 오류를 지적하고, 확률 질량을 집계하는 간단하지만 효과적인 SCA 방식을 제시함으로써 LLM의 실용적 신뢰성 향상에 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기