LLM 협상에서 드러난 비합리성: 모델별 편향과 전략적 우위

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 최신 대형 언어모델들을 NegotiationArena 프레임워크에 적용해 구매‑판매, 다회차 최후통첩, 자원 교환 세 가지 협상 게임을 시뮬레이션한다. 모델들은 일반적인 추론 능력 향상이 곧 합리적·공정한 협상 전략으로 이어지지 않으며, 초기 제안에 크게 좌우되는 앵커링 편향, 모델 고유의 전략적 균형점, 그리고 일부 모델이 지속적으로 높은 수익을 얻는 지배 구조를 보인다.

상세 분석

이 연구는 2025년 현재 공개된 최첨단 LLM 6종(Gemini 2.5 Pro·Flash, GPT‑4.1·4o·4.1 mini, Claude 4.5 Sonnet)을 동일한 프로프트와 온도 0.7 설정 하에 NegotiationArena의 세 가지 협상 시나리오에 투입하였다. 주요 측정 지표는 각 라운드 종료 시점의 실제 수익(payoff)과, 협상 가능 구역(Zone of Possible Agreement, ZOPA)의 폭에 따른 성능 변동이다.

1️⃣ 앵커링 효과: 모든 모델에서 초기 제시 가격이 최종 합의 가격에 강한 상관관계를 보였다. 특히 Gemini 2.5 Pro와 Claude 4.5 Sonnet은 초기 제안이 높을수록 최종 가격도 높아지는 경향이 뚜렷했으며, 이는 “숫자적·의미적 앵커링”이 LLM의 내부 가치 추정 과정을 왜곡한다는 점을 시사한다.

2️⃣ 전략적 다원성: 기대와 달리 모델들은 하나의 나시 균형으로 수렴하지 않고, 각각 고유한 “전략 서명”을 형성한다. 예를 들어, Gemini 2.5 Pro는 구매자·판매자 역할 모두에서 높은 평균 수익을 기록하며, 특히 판매자 입장에서 높은 마진을 유지한다. 반면 GPT‑4.1 mini는 판매자 역할에서 거의 이익을 얻지 못하고, 구매자 입장에서도 평균 수익이 낮다. 이러한 차이는 모델 아키텍처·파라미터 규모·프롬프트 튜닝 차이에 기인한 것으로 보인다.

3️⃣ 지배 구조(Dominance): 쌍대 실험(pairwise) 결과, Gemini 2.5 Pro와 GPT‑4o는 상대 모델을 상대로 일관된 수익 우위를 보였으며, 특히 약체 모델(GPT‑4.1 mini, Claude Sonnet)과의 매칭에서 “착취적” 행동 패턴이 관찰됐다. 이는 규모가 큰 모델이 협상 환경에서 자연스럽게 “시장 지배자” 역할을 수행할 위험성을 강조한다.

4️⃣ 인지 편향과 게임 이론의 괴리: 기존 연구가 제시한 “LLM은 코히어런트한 이론적 사고를 보인다”는 가설과 달리, 본 실험은 LLM이 인간과 유사한 인지 편향(앵커링, 과신, 누락 편향 등)을 그대로 유지함을 확인한다. 따라서 고성능 추론 능력이 게임 이론적 합리성으로 자동 전이되지 않으며, 별도의 편향 완화 메커니즘이 필요함을 역설한다.

5️⃣ 시나리오별 차별적 행동: 다회차 최후통첩 게임에서는 제안자가 과도히 높은 제안을 고수하면 응답자가 거절률이 급증, 결국 양측 모두 0 수익을 얻는 ‘교착 상태’가 빈번히 발생했다. 자원 교환 게임에서는 모델마다 자원 다변화 전략(다양한 아이템 교환)과 단일 자원 집중 전략이 명확히 구분돼, 협상 목표 설정이 모델에 따라 크게 달라짐을 보여준다.

전반적으로, 모델 규모·성능 향상이 협상 전략의 ‘합리성’이나 ‘공정성’을 보장하지 않으며, 오히려 모델 고유의 전략적 균형과 편향이 강화될 위험이 있다. 이는 LLM을 실제 경제·정치·사회적 협상에 적용하기 전, 편향 완화·공정성 검증·규제 프레임워크 구축이 시급함을 의미한다.

LLM 협상에서 드러난 비합리성: 모델별 편향과 전략적 우위

초록

상세 분석

댓글 및 학술 토론

의견 남기기