포켓에이전트 챌린지 대규모 경쟁·장기계획 벤치마크
포켓에이전트 챌린지는 포켓몬 배틀과 RPG 스피드러닝을 결합한 두 트랙으로, 부분 관측, 게임 이론적 추론, 장기 계획을 동시에 테스트한다. 20 M 이상의 배틀 데이터와 200 K 이상의 팀을 제공하고, 휴리스틱·RL·LLM 기반 베이스라인을 공개한다. NeurIPS 2025 대회에서 100팀 이상이 참가했으며, 전문 RL이 LLM을 앞서는 등 인간·전문가·AI 간 성능 격차가 크게 남아 있음을 보여준다.
저자: Seth Karten, Jake Grigsby, Tersoo Upaa
포켓에이전트 챌린지는 포켓몬이라는 복합 게임 세계를 활용해 AI 의사결정 연구에 새로운 대규모 벤치마크를 제시한다. 논문은 먼저 포켓몬이 부분 관측, 게임 이론적 추론, 장기 계획이라는 세 가지 핵심 도전을 동시에 제공한다는 점을 강조한다. 이를 위해 두 개의 트랙을 설계했는데, 첫 번째는 ‘배틀 트랙’으로 포켓몬 쇼다운의 경쟁적 2인 전투를 다루며, 두 번째는 ‘스피드런 트랙’으로 포켓몬 에메랄드 RPG를 가능한 한 빠르게 클리어하는 과제를 제공한다.
배틀 트랙에서는 20 M 이상의 배틀 궤적을 공개한다. 여기에는 4 M 인간 시연과 18 M 합성 배틀이 포함되며, 각 배틀은 은닉된 팀 정보와 동시에 선택되는 행동을 포함한다. 데이터는 프라이빗 관점으로 재구성돼, 관전 로그만으로는 알 수 없는 정보를 복원한다. 또한 200 K 이상의 팀 구성을 제공해, 에이전트가 다양한 초기 조건에 일반화하도록 설계되었다.
베이스라인은 세 갈래로 나뉜다. 휴리스틱 봇은 기존 메타게임 전략을 규칙화한 것으로, 빠른 프로토타이핑에 유용하지만 한계가 있다. RL 베이스라인은 Metamon 프로젝트를 확장해, 인간 시연과 자기 플레이를 혼합 학습한 30개의 정책을 제공한다. 이들은 Gen 1 OU와 Gen 9 OU 두 포맷에서 인간 전문가 수준에 근접하거나 상회한다. LLM 베이스라인은 PokéChamp 프레임워크를 기반으로, 구조화된 텍스트 상태를 LLM에 입력하고, 미니맥스 탐색과 결합해 의사결정을 수행한다. 다양한 모델(GPT‑5, Gemini 3, Claude Opus 등)과 하니스 설정을 실험했으며, 작은 오픈소스 모델도 하니스와 함께라면 의미 있는 성능을 보였다.
평가 메트릭으로는 기존 쇼다운의 Glicko‑1·GXE 대신, 배틀 결과 전체 히스토리를 베이즈 부트스트랩한 Full‑History Bradley‑Terry(FH‑BT) 모델을 도입했다. 이는 작은 AI 에이전트 풀에서도 신뢰성 있는 순위를 산출하도록 설계되었다.
스피드런 트랙은 포켓몬 에메랄드 전체를 가능한 한 빨리 클리어하는 과제로, 수천 단계에 걸친 탐험·전투·아이템 관리가 요구된다. 논문은 멀티‑에이전트 오케스트레이션 시스템을 오픈소스로 제공해, LLM 기반 ‘하니스’를 모듈화하고 재현성을 확보한다. 실험 결과, 현재 최첨단 LLM조차도 복잡한 스크립트와 상태 추론 없이 인간 수준의 스피드런을 달성하지 못한다는 점을 강조한다.
NeurIPS 2025 대회에서는 100팀 이상이 두 트랙에 참가했으며, 총 100 K 이상의 배틀이 진행되었다. 결과는 전문 RL 에이전트가 LLM 기반 에이전트를 크게 앞서는 구조적 격차를 보여준다. 특히 ‘전문가 RL vs. 일반 LLM’ 구도가 BenchPress 49개 벤치마크와 거의 직교한다는 분석은, 포켓몬 벤치마크가 기존 평가 체계가 포착하지 못한 능력을 측정한다는 강력한 증거다.
논문의 주요 기여는 다음과 같다. (1) 부분 관측·게임 이론·장기 계획을 동시에 요구하는 복합 도메인을 제시, (2) 대규모 배틀·팀·팀 빌딩 데이터와 표준화된 베이스라인·평가 체계를 제공, (3) RL과 LLM 간 성능 격차와 인간 수준과의 차이를 정량화, (4) 라이브 리더보드와 자체 평가 파이프라인을 제공해 지속 가능한 연구 생태계를 구축한다는 점이다. 앞으로도 데이터와 베이스라인을 지속적으로 업데이트하고, 새로운 포맷과 메타게임 변화를 반영해 살아있는 벤치마크로 성장할 예정이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기