오디세이아레나: 장기·활동·귀납형 상호작용을 위한 LLM 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

오디세이아레나는 LLM 기반 에이전트가 긴 시간 동안 스스로 규칙을 발견하고 탐색하도록 평가하는 새로운 벤치마크이다. 네 가지 기본 전이 원리를 구체적 환경(불 켜기, AI 트레이딩, 에너지 디스패치, 레포 시스템)으로 구현하고, 120개의 라이트 버전 과제와 200+ 단계의 챌린지 버전을 제공한다. 15개 이상의 최신 LLM을 실험한 결과, 상업 모델조차도 인간 수준에 미치지 못하며, 특히 귀납적 추론과 장기 계획에서 큰 한계를 보였다.

상세 분석

오디세이아레나는 기존 에이전트 벤치마크가 갖는 세 가지 구조적 결함—짧은 상호작용 호라이즌, 사전 정의된 목표, 그리고 순수 귀납 추론 부재—를 동시에 해결하려는 시도다. 논문은 환경을 “생성적 상태 전이 함수 T(s_t, a_t) → (s_{t+1}, r_t)” 형태로 수학적으로 정의하고, T를 네 가지 구조적 프리미티브(이산 논리 규칙, 연속 확률 동역학, 주기적 패턴, 관계 그래프)로 분해한다. 각 프리미티브는 실제 세계 시스템에서 흔히 나타나는 메커니즘을 대표하며, 이를 구체적 인터랙티브 환경에 매핑함으로써 에이전트가 경험을 통해 T 자체를 추론하도록 강제한다.

첫 번째 환경인 “Turn On Lights”는 이산 논리 규칙을 구현한다. N개의 전구가 숨겨진 불 대수식에 의해 상호 연결되고, 단일 전구 토글이 다수 전구의 상태를 연쇄적으로 바꾼다. 에이전트는 관찰 가능한 전구 상태만을 통해 숨겨진 논리 회로를 추론해야 하며, 탐색 효율이 곧 성공률에 직결된다. 두 번째 환경 “AI Trading”은 연속 확률 동역학을 모델링한다. 다변량 주가와 외부 요인이 연속 함수 f와 노이즈 ε에 의해 업데이트되며, 에이전트는 시계열 데이터를 기반으로 f를 근사하고, 최적 매매 전략을 도출해야 한다. 세 번째 환경 “Energy Dispatch”는 주기적 패턴을 포함한다. 여러 에너지 자원의 생산·소비 효율이 일정 주기(P)마다 반복되며, 다목표(비용 최소화, 탄소 배출 제한 등) 최적화를 위해 장기적인 주기 인식을 요구한다. 마지막으로 “Repo System”은 관계 그래프 구조를 제공한다. 가상 패키지 의존성 그래프에서 버전 충돌과 설치 순서를 탐색해야 하며, 이는 비국소적 관계 추론을 필요로 한다.

벤치마크는 두 가지 스케일을 제공한다. “OdysseyArena‑Lite”는 120개의 과제로 구성돼 평균 50~100 단계의 호라이즌을 갖으며, 빠른 실험 파이프라인을 지원한다. 반면 “OdysseyArena‑Challenge”는 1,000 단계 이상을 요구하는 초장기 과제로, 에이전트의 메모리 유지, 오류 복구, 전략 재조정 능력을 극한까지 시험한다. 실험에서는 Gemini 3 Pro Preview가 44.17%의 최고 성공률을 기록했지만, 인간 수준(≈90% 이상)과는 큰 격차가 있었다. 특히 연속 동역학과 관계 그래프 환경에서 대부분의 모델이 초반 탐색 단계에서 규칙을 충분히 추론하지 못해 성능이 급격히 떨어졌다. 오픈소스 모델은 전반적으로 상업 모델보다 낮은 점수를 받았으며, 파라미터 규모와는 무관하게 귀납적 학습 능력이 제한적임을 보여준다.

논문의 주요 기여는 (1) 에이전트 평가 패러다임을 “규칙 발견” 중심으로 전환한 점, (2) 네 가지 원리를 포괄하는 경량화된 인터랙티브 환경을 제공해 재현성과 확장성을 확보한 점, (3) 대규모 LLM을 대상으로 한 포괄적 실험을 통해 현재 기술의 귀납적 한계를 정량화한 점이다. 향후 연구는 (i) 메타러닝 기반 세계 모델 학습을 통해 T를 빠르게 추론하도록 하는 방법, (ii) 장기 기억 구조(예: 외부 데이터베이스, 지속적 학습)와 결합한 에이전트 설계, (iii) 인간 피드백을 활용한 탐색 정책 강화 등으로 이어질 수 있다. 전체적으로 오디세이아레나는 LLM 에이전트가 “스스로 규칙을 발견하고, 장기적으로 일관된 전략을 유지”하는 진정한 자율성을 평가하기 위한 가장 포괄적인 테스트베드로 자리매김한다.

오디세이아레나: 장기·활동·귀납형 상호작용을 위한 LLM 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기