프론티어 언어 에이전트, MBA 수준 협상 성과 달성 및 새로운 행동 차이 밝혀

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 MBA 교과과정에서 사용된 실제 비즈니스 협상 시나리오를 기반으로 만든 대규모 협상 벤치마크 PieArena를 소개한다. 326개의 챗 모델을 선별·스크리닝한 뒤 13개의 최종 모델을 대상으로 인간 학생(비즈니스 스쿨)과의 비교 실험을 수행한다. 연속적인 협상 결과(파이 쉐어)를 통계적으로 정밀히 평가하기 위해 Gaussian‑Generalized Bradley‑Terry‑Luce(GGBTL) 모델을 제안하고, 이를 통해 GPT‑5와 같은 최첨단 모델이 인간 전문가 수준 혹은 초월적인 성과를 보임을 입증한다. 또한 공동‑의도(agentic) 스캐폴딩이 약한 모델에 큰 이득을 주지만, 최첨단 모델에는 한계가 있음을 보고한다. 마지막으로 기만, 수치 정확도, 명령 준수, 평판 등 다차원 행동 지표를 분석해 모델 간 이질성을 드러낸다.

상세 분석

**
이 연구는 협상을 LLM 평가의 새로운 프론티어로 삼으며, 기존의 정답 기반 혹은 단일 라운드 테스트와는 달리 ‘헤드‑투‑헤드’ 실시간 대화를 통해 지속적인 가치 창출과 분배 과정을 측정한다. 가장 큰 기술적 기여는 연속형 보상(파이 쉐어)을 다루는 GGBTL 모델이다. 기존 BTL은 승패 이진값에만 적용 가능했으나, 여기서는 파이 차이 dₖ∈

프론티어 언어 에이전트, MBA 수준 협상 성과 달성 및 새로운 행동 차이 밝혀

초록

상세 분석

댓글 및 학술 토론

의견 남기기