LLM은 합리적 행위자인가 믿음 일관성 측정

LLM은 합리적 행위자인가 믿음 일관성 측정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 의료 진단 과제에서 대형 언어 모델(LLM)의 확률적 믿음과 행동이 기대 효용 극대화라는 합리적 의사결정 원칙에 부합하는지를 검증한다. 모델이 제시한 사후 확률과 선택을 이용해 조건부 독립성, 단조성 등 이론적 일관성 조건을 통계적으로 테스트하고, 위배율을 통해 LLM이 ‘진정한’ 주관적 확률을 보유했는지 판단한다. 실험 결과는 여러 LLM이 일부 상황에서 일관성을 보이지만, 전반적으로는 합리적 에이전트로 완전히 설명되지 않음을 보여준다.

상세 분석

논문은 먼저 기대 효용 이론을 기반으로 한 의사결정 프레임워크를 정형화한다. 환경은 숨은 상태 θ와 관측 x를 생성하고, 에이전트는 주관적 사후 확률 P_S(θ|x)를 형성한다. 전통적인 기대 효용 극대화는 a(x)=arg max_a ∑_θ P_S(θ|x) u(a,θ) 로 표현되지만, 실제 인간이나 LLM은 선택에 잡음 ε_a를 포함한 랜덤 유틸리티 모델(RUM)이나, 확률 가중 함수 w(·)를 도입한 전망 이론(PT‑RUM) 형태로 행동한다는 점을 강조한다.

핵심 검증은 두 가지 가정에 기반한다. 첫째, 주관적 믿음이 올바르게 보고되었다면 행동은 θ에 대해 조건부 독립이어야 한다(a ⟂ θ | P_S). 이를 검증하기 위해 논문은 비모수적 조건부 상호정보(CMI) 검정과, θ를 추가했을 때 로그 손실이 감소하는지를 측정하는 예측 모델 비교를 제안한다. 둘째, 이진 진단 상황에서 믿음과 행동 사이의 단조성 관계가 유지되어야 한다. 즉, 믿음 p가 증가할수록 위험을 회피하는 경우에도 행동 확률은 비감소(또는 비증가)해야 한다는 것이다. 이를 위해 베르누이 로짓 회귀와 순위 상관 검정을 활용한다.

실험에서는 네 가지 의료 도메인(예: 폐렴, 심근경색 등)과 GPT‑4, Claude, Llama 2 등 여러 최신 LLM을 대상으로, 동일한 환자 증상 x에 대해 (1) 확률 p = P_E(θ=1|x)를 자연어 프롬프트로 elicitation하고, (2) 별도 프롬프트로 진단 행동(검사 시행/치료/보류)을 요청한다. 실제 θ는 시뮬레이션된 환자 모델에서 제공된다. 수집된 (x, p, a, θ) 데이터셋에 대해 위의 CI 테스트와 단조성 검정을 수행한다.

결과는 대부분의 모델이 조건부 독립성을 약간 위반함을 보여준다. 특히 고위험 상황에서 모델은 실제 θ와 추가 상관관계를 보이며, 이는 모델이 내부에 숨은 정보를 보유하고 있으나 이를 확률 형태로 정확히 표현하지 못함을 시사한다. 단조성 테스트에서도 일부 모델은 p가 높음에도 불구하고 위험 회피적 행동을 선택하지 않아 PT‑RUM 가정조차 만족시키지 못한다. 다만, GPT‑4는 비교적 낮은 위반율을 보이며, 특정 도메인에서는 CI와 단조성 모두를 만족시켜 ‘합리적’이라고 평가될 수 있다.

논문은 이러한 위반이 모델의 파인튜닝 단계, 프롬프트 설계, 혹은 내부 토큰 확률 분포와 출력 텍스트 사이의 불일치에서 비롯될 수 있음을 논의한다. 또한, 믿음과 행동을 별도 컨텍스트에서 elicitation함으로써 ‘보고된’ 확률이 실제 의사결정에 사용되는 내부 신념과 일치하는지를 검증하는 새로운 검증 파이프라인을 제시한다. 이는 기존의 캘리브레이션(정확도) 평가를 넘어, LLM이 고위험 의사결정에 활용될 때 요구되는 ‘내적 일관성’까지 검증할 수 있는 중요한 방법론적 기여라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기