게임 개발을 통한 에이전트 멀티모달 능력 평가 벤치마크
초록
GameDevBench는 Godot 엔진 기반 132개의 게임 개발 과제를 제공하여, 코드와 이미지·영상 등 다양한 멀티모달 자산을 동시에 다루는 에이전트의 능력을 정량적으로 평가한다. 평균 과제 해결에 필요한 코드 라인 수와 파일 변경량은 기존 소프트웨어 벤치마크의 3배 이상이며, 현재 최고 에이전트도 54.5% 수준만 성공한다. 멀티모달 피드백(스크린샷·비디오) 도입 시 성능이 크게 향상되는 것을 확인하였다.
상세 분석
본 논문은 멀티모달 이해와 복잡한 코드베이스 조작을 동시에 요구하는 게임 개발을 새로운 평가 영역으로 제시한다. 먼저 Godot 4 튜토리얼을 기반으로 132개의 과제를 자동·수동으로 정제했으며, 각 과제는 “게임플레이 로직”, “3D 그래픽·애니메이션”, “2D 그래픽·애니메이션”, “UI” 네 가지 스킬 카테고리와 씬·스크립트·컨텍스트 에디터 유형으로 분류된다. 과제당 평균 5개의 파일이 수정되고 106줄 이상의 코드가 추가되는 등, SWE‑Bench 대비 3배 이상의 복잡성을 보인다. 평가 방식은 Godot의 유닛 테스트 프레임워크를 활용해 행동·물리·시각적 결과를 결정적으로 검증함으로써, 멀티모달 출력에 대한 주관적 판단을 배제한다. 실험에서는 Claude Sonnet 4.5, GPT‑4 등 최신 LLM 기반 에이전트를 테스트했으며, 최고 성능은 54.5%에 그쳤다. 특히 2D 그래픽 과제에서 31.6%에 불과한 저조한 결과는 시각적 자산 해석이 여전히 약점임을 시사한다. 이를 보완하기 위해 MCP 서버를 통한 실시간 스크린샷 제공과 게임 플레이 비디오 피드백을 도입했으며, 두 방법 모두 성능을 10~15%p 상승시켰다. 특히 Claude Sonnet 4.5는 33.3%→47.7%로 큰 폭의 개선을 보였다. 이러한 결과는 멀티모달 입력을 직접 모델에 전달하는 것이 현재 LLM의 시각·동영상 이해를 크게 촉진한다는 점을 강조한다. 논문은 또한 데이터 파이프라인(영상 전사·GitHub 매칭·자동 과제 생성·인간 검수)의 상세 과정을 공개하고, 향후 더 복잡한 엔진·플랫폼 확장과 인간‑에이전트 협업 시나리오 연구를 제안한다. 전반적으로 GameDevBench는 멀티모달 코딩 에이전트의 한계와 향후 연구 방향을 명확히 제시하는 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기