다중 LLM 에이전트의 베이지안 비용 인식 순차 의사결정

초록

본 논문은 기존 LLM 기반 의사결정이 확률 p(state|evidence)를 직접 추정하고 임계값만 적용하는 방식의 근본적인 한계를 지적한다. 저자는 LLM을 상태에 대한 증거 생성 확률 p(evidence|state) 의 근사 likelihood 로 활용하고, 베이지안 업데이트와 기대 효용 최대화를 결합한 프레임워크를 제안한다. 다중 모델을 강건하게 집계하고, 비용 비대칭을 명시적으로 반영하며, 가치‑정보 계산을 통해 추가 증거를 수집한다. 이 방법을 이력서 스크리닝에 적용한 실험에서 비용 절감 34 %와 공정성 개선 45 %를 달성하였다.

상세 분석

이 논문은 LLM을 “분류기”로 보는 전통적 접근이 순차적 의사결정에 수학적으로 부적합함을 정리한다. 기존 방법은 p(state|evidence) 를 직접 추정하고, 사전 정의된 신뢰 임계값을 넘으면 즉시 행동을 취한다. 그러나 이러한 절차는 (1) 베이즈 정리의 사전‑우도 구조를 무시하고, (2) 불확실성 전파가 불가능하며, (3) 비용 비대칭을 반영하지 못한다는 근본적인 결함을 가진다. 저자는 LLM을 “가능도 함수” p(evidence|state) 의 근사치로 재해석한다. 이는 LLM이 특정 상태(예: 후보가 적합함) 하에서 주어진 증거(이력서 내용)를 생성할 확률을 추정하도록 프롬프트를 설계함으로써 가능해진다. 여러 모델(GPT‑4o, Claude 3.5, Gemini Pro, Grok, DeepSeek)을 활용해 각 모델별 가능도를 얻고, 중앙값 혹은 M‑estimator와 같은 강건 통계 방법으로 집계한다. 이렇게 얻은 집계 가능도와 사전 확률을 베이즈 정리에 대입하면, 새로운 증거가 추가될 때마다 사후 확률을 정확히 업데이트할 수 있다.

업데이트된 사후 확률을 기반으로 기대 효용을 계산한다. 여기서 효용은 각 행동(채용, 인터뷰, 전화 스크리닝, 거절)의 비용을 반영한 함수이며, 비용 비대칭(예: 놓친 적격 후보 $40 k vs 불필요한 인터뷰 $2.5 k) 을 명시적으로 포함한다. 기대 효용을 최대화하는 행동을 선택함으로써, 비용 효율적인 정책을 도출한다. 또한, 가치‑정보(VOI) 분석을 통해 현재 사후 확률이 충분히 확신되지 않을 경우 추가 증거(예: 전화 인터뷰)를 요청하도록 설계한다. 이는 “불일치‑유발 정보 수집” 메커니즘으로, 다중 모델 간 예측 차이가 클 때만 추가 비용을 지불한다는 점에서 경제적이다.

공정성 측면에서는, 다중 모델 집계가 개별 모델의 편향을 평균화하거나 상쇄시키는 효과를 보인다. 논문은 인구통계학적 차이를 측정하는 파라미터(예: 그룹별 적격 후보 비율 차이)를 사용해, 베이지안 프레임워크 내에서 사전 확률을 조정하거나 사후 확률을 재가중함으로써 차별을 완화한다. 실험 결과, 다중 모델 집계가 비용 절감에 51 %, 순차적 업데이트가 43 %, VOI 기반 추가 증거 수집이 20 % 기여했으며, 전체 비용 절감 34 %와 최대 그룹 차이를 22 pp에서 5 pp로 감소시켰다. 이러한 정량적 개선은 단순 경험적 우연이 아니라, 가능도 기반 베이지안 접근이 이론적으로 최적에 근접함을 증명한다.