LLM 자신감과 행동 사이의 괴리: 믿음은 알지만 행동은 안한다
초록
본 논문은 정적 데이터셋에서 측정된 대형 언어모델(LLM)의 자신감 추정치가 실제 에이전트 환경에서의 행동과 일치하지 않음을 보여준다. 예측 시장, 도구 호출, 사용자 도전 세 가지 실험을 통해 모델이 높은 자신감을 가졌음에도 반대 방향으로 베팅하거나, 낮은 자신감에도 도구를 사용하지 않으며, 자신감이 높은 답변을 오히려 바꾸는 등 ‘행동‑신념 격차(action‑belief gap)’가 존재함을 입증한다. 또한 정적 보정(ECE) 수준이 높은 모델일수록 오히려 일관성이 낮을 수 있음을 발견한다.
상세 분석
이 연구는 LLM의 불확실성 추정이 실제 에이전트적 의사결정에 어떻게 활용되는지를 최초로 체계적으로 검증한다. 먼저, 기존 연구에서 널리 쓰이는 기대 보정 오차(ECE)와 같은 정적 지표가 실제 행동과의 정합성을 보장하지 못한다는 점을 실험적으로 입증한다. 이를 위해 세 가지 실험 설계를 제안했는데, 각각은 (1) 예측 시장에서 자신감에 기반한 베팅 행동, (2) 검색 도구 호출 여부, (3) 사용자 도전 상황에서 답변 수정 여부를 측정한다.
예측 시장 실험에서는 모델에게 특정 사건에 대한 확률을 추정하도록 한 뒤, 시장에서 제시된 배당률에 따라 베팅하도록 했다. 이상적인 행동은 추정 확률과 배당률을 비교해 기대 효용을 최대화하는 베팅이다. 결과는 대부분의 모델이 베팅 금액과 방향에서 최적값과 크게 차이 나는 것을 보여준다. 특히 GPT‑4o와 Gemini 2.5 시리즈는 선형 효용에서는 최적이었지만, 로그 효용에서는 여전히 큰 편차를 보였으며, Gemma 모델은 일관성 자체가 낮았다.
두 번째 실험인 도구 호출에서는 질문에 대한 자체 답변과 자신감을 먼저 얻고, 자신감이 낮을 경우 검색 도구를 사용하도록 지시했다. 모델이 실제로 도구를 호출한 비율과 자신감 사이의 상관관계를 스피어만 순위 상관계수로 측정했는데, 대부분의 모델이 양의 상관을 보였지만 +1에 근접하지 못했다. 특히 Mistral은 언어적 자신감 추정에서 거의 상관이 없었고, Llama는 로그잇 기반 자신감에서도 0에 가까운 상관을 보였다. 이는 “불확실할 때 도구를 쓰라”는 명령이 모델 내부 신념과 행동을 연결하지 못한다는 것을 의미한다.
세 번째 실험은 사용자와의 인터랙션에서 모델이 도전받은 답변을 고수하거나 수정하는지를 관찰했다. 여기서도 자신감이 높은 답변을 오히려 바꾸는 경우가 빈번했으며, ‘고수율’과 자신감 사이의 단조성 역시 완벽에 못 미쳤다. 특히 폐쇄형 모델인 GPT‑4o와 Gemini는 높은 자신감에도 불구하고 답변을 바꾸는 경향이 있었으며, 이는 인간의 메타인지와는 정반대 행동이다.
전체적으로 모델 크기, 사전학습 데이터, 공개·비공개 여부와 무관하게 ‘행동‑신념 격차’가 일관되게 나타났다. 흥미롭게도, 정적 보정이 우수한 Gemini 2.5 Pro는 오히려 작은 오픈소스 모델보다 일관성이 낮았다. 이는 현재 LLM 평가 체계가 “무엇을 안다”를 측정하는 데 초점을 맞추고 “그 지식을 어떻게 행동에 옮기는가”를 간과하고 있음을 시사한다.
이 논문의 의의는 두 가지다. 첫째, LLM을 실제 에이전트로 활용하려면 정적 자신감 추정만으로는 충분하지 않으며, 행동과 신념을 동시에 검증하는 새로운 평가 프레임워크가 필요함을 강조한다. 둘째, 모델 설계 단계에서 메타인지적 메커니즘—예를 들어, 자신감에 기반한 행동 정책을 명시적으로 학습시키는 방법—을 도입해야 한다는 실질적 방향성을 제시한다. 향후 연구는 (1) 행동‑신념 정합성을 직접 최적화하는 훈련 목표, (2) 도구 호출과 같은 외부 액션을 포함한 강화학습(RLHF) 프레임워크, (3) 다중턴 대화에서의 신념 업데이트 메커니즘 등을 탐구함으로써 보다 신뢰할 수 있는 에이전트형 LLM을 구축할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기