언어 기반 다중 에이전트 협상 벤치마크 AgenticPay

언어 기반 다중 에이전트 협상 벤치마크 AgenticPay
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AgenticPay는 구매자와 판매자가 자연어 대화를 통해 가격·조건을 협상하는 시장을 시뮬레이션하는 벤치마크이다. 110여 개의 과제와 1대1, 1대N, N대N 등 다양한 거래 구조를 제공하며, 거래 타당성·효율성·복지를 측정한다. 최신 상용·오픈‑소스 LLM을 평가한 결과, 장기 전략 추론과 역할별 asymmetry에서 큰 격차가 드러났다.

상세 분석

본 논문은 기존 LLM 협상 평가가 수치 입찰이나 단일 라운드에 국한된 점을 지적하고, 실제 전자상거래·조달·서비스 계약 등에서 요구되는 “언어 매개·다중 라운드·비공개 예약가격”이라는 핵심 요소를 통합한 새로운 실험 프레임워크를 제시한다. AgenticPay는 (1) 환경: 제품 특성·시장 컨텍스트·공개·비공개 정보가 명시된 시뮬레이션 환경을 구현하고, (2) 과제: 구매자·판매자 수, 제품 종류, 상호작용 방식(병렬·순차) 등 3차원으로 복합성을 조절하는 110여 개의 시나리오를 제공한다. (3) 에이전트: 동일 아키텍처를 공유하지만 역할에 따라 사적 가치 함수(구매자는 지불 의사, 판매자는 최소 가격)를 갖는 LLM 기반 정책을 정의한다. 각 라운드에서 에이전트는 “자연어 메시지 + 구조화된 가격 제안”을 생성하고, 파서가 이를 행동(가격 제안, 수락 등)으로 변환한다. 협상 종료 조건은 합의 도달, 최대 라운드 초과, 혹은 타당성 위반이다.

평가 지표는 Feasibility(합의 가격이 양측 예약가격 구간에 있는가), Efficiency(협상 라운드 수·시간), Welfare(구매자·판매자 잉여의 합)로 구성돼, 전통적인 경제학적 효율성 개념을 언어 기반 시뮬레이션에 매핑한다. 실험에서는 GPT‑4, Claude‑2, Llama‑2‑Chat 등 최신 상용 모델과 오픈‑소스 모델을 동일 프로토콜(인퍼런스 전용)으로 테스트했으며, 전반적으로 역할 비대칭(구매자 vs. 판매자)과 장기 전략(양보 시점·가격 조정)에서 성능 격차가 크게 나타났다. 특히, 다중 구매자·다중 판매자(N대N) 상황에서는 대부분의 모델이 협상 라운드를 초과하거나 타당성 위반을 일으켜 복지 점수가 급격히 감소했다.

기술적 한계로는 (1) 현재 파서가 단순 정규식 기반이라 복잡한 조건(예: 번들 할인, 배송 조건) 추출에 취약하고, (2) 에이전트가 “내부 상태”를 완전히 비공개로 유지하지만 시뮬레이션에서는 사전 정의된 예약가격을 사용해 현실적 불확실성을 충분히 모델링하지 못한다는 점을 들 수 있다. 또한, LLM 자체의 “대화 일관성” 문제가 장기 협상에서 누적 오류를 일으키는 것으로 관찰되었다.

이러한 분석을 통해 저자는 향후 연구 방향으로 (①) 구조화된 행동 스키마와 강화학습 기반 정책 최적화, (②) 비공개 정보 추론을 위한 메타‑학습, (③) 다중 에이전트 협상에서의 공정성·전략적 투명성 메커니즘 도입을 제안한다. AgenticPay는 언어와 경제 전략이 결합된 연구를 위한 표준화된 테스트베드로, LLM이 실제 상업적 협상에 투입되기 전 필수적인 검증 도구가 될 전망이다.


댓글 및 학술 토론

Loading comments...

의견 남기기