EcoGym 장기 계획 평가를 위한 인터랙티브 경제 시뮬레이션
초록
EcoGym은 무한에 가까운 시간 horizon(1000 일 이상)에서 LLM 기반 에이전트의 계획·실행 능력을 평가하기 위해 설계된 벤치마크이다. Vending, Freelance, Operation이라는 세 가지 경제 시나리오를 통합 인터페이스와 제한된 행동 집합으로 제공하고, 순자산, 소득, 일일 활성 사용자(DAU) 등 실질적인 비즈니스 지표를 최종 목표로 삼는다. 실험 결과 현재 주요 LLM들은 어느 하나의 시나리오에서도 일관된 최우수 성능을 보이지 않으며, 고수준 전략 수립과 세부 행동 실행 사이에 뚜렷한 트레이드오프가 존재한다는 점을 밝혀냈다.
상세 분석
EcoGym은 장기‑계획 평가를 위해 세 가지 핵심 설계 원칙을 제시한다. 첫째, 행동 공간을 4~5개의 원시적인 프리미티브로 제한하면서도 시간 horizon을 사실상 무한에 가깝게 설정함으로써 에이전트가 단기 보상에 머무르지 않고 장기적인 전략 일관성을 유지하도록 강제한다. 둘째, 경제 활동을 평가 지표로 삼아 순자산(Net Worth), 소득(Income), 일일 활성 사용자(DAU) 등 실제 비즈니스 성과와 직접 연결된 목표를 제공한다. 이는 기존의 코드 생성·게임 플레이와 같은 추상적 보상 체계와 달리, 모델의 실질적인 경제적 가치를 측정한다는 점에서 의미가 크다. 셋째, 숨겨진 시장 메커니즘(예: 수요 탄력성, 시즌성, 시스템 감쇠 계수 등)을 명시적으로 노출하지 않아 에이전트가 탐색·가설 검증 과정을 통해 환경을 학습하도록 설계했다.
세 환경은 각각 소매(재고·가격 조정), 프리랜서(작업 선택·건강 관리), 디지털 플랫폼(사용자 확보·콘텐츠 품질)이라는 서로 다른 도메인을 대표한다. 공통된 인터페이스는 (관찰 → 목표 → 행동 → 상태 전이) 순환을 따르며, 부분 관찰(partial observability)과 확률적 전이(stochastic transition)를 포함한다. 상태 전이와 보상 함수는 부록에 상세히 기술돼 있으나, 핵심은 에이전트가 매일 제공되는 보고서와 즉각적인 피드백을 활용해 숨은 파라미터를 추정하고, 이를 기반으로 행동을 최적화해야 한다는 점이다.
실험에서는 11개의 최신 LLM(Claude‑Sonnet‑4.5, DeepSeek‑v3.2 등)을 동일한 프롬프트와 메모리 설정으로 평가했으며, 각 모델은 환경별로 서로 다른 강점을 보였다. 예를 들어, 일부 모델은 Vending에서 재고 관리와 가격 조정에 뛰어나지만 Freelance에서는 스트레스·에너지 관리에 약했고, 반대로 다른 모델은 프리랜서 시나리오에서 높은 소득을 달성했지만 Operation에서는 DAU 감소를 막지 못했다. 또한, 여러 진단 실험을 통해 (1) 컨텍스트 윈도우 길이, (2) 외부 메모리 모듈 사용, (3) 인간 베이스라인과의 비교 등이 성능에 미치는 영향을 분석했다. 결과는 현재 LLM이 장기 전략 수립과 세부 실행 사이에서 일관된 균형을 찾지 못한다는 구조적 한계를 드러낸다.
EcoGym은 오픈 소스와 모듈식 설계 덕분에 새로운 경제 시나리오 추가·커스터마이징이 용이하며, 연구 커뮤니티가 장기‑계획 에이전트를 보다 현실적인 경제적 맥락에서 검증할 수 있는 기반을 제공한다. 향후 연구 방향으로는 (1) 메타‑리인포스먼트 학습을 통한 전략‑행동 간 통합, (2) 다중 에이전트 경쟁·협력 메커니즘 도입, (3) 인간‑인증 피드백 루프를 활용한 안전성·신뢰성 강화 등이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기