AI 게임스토어 인간 게임을 통한 일반 지능 평가
초록
이 논문은 인간이 설계하고 즐기는 모든 게임을 포괄하는 “인간 게임 멀티버스”를 지능 평가 기준으로 삼고, 대규모 LLM‑기반 파이프라인으로 디지털 게임을 표준화·컨테이너화한 AI GameStore 플랫폼을 제안한다. 100개의 대표 게임을 구축하고 7개의 최신 비전‑언어 모델을 인간 플레이어와 비교 실험한 결과, 모델들은 평균 점수의 10% 이하에 머물며 특히 세계 모델 구축·장기 기억·계획 능력에서 큰 격차를 보였다.
상세 분석
본 연구는 기존 AI 벤치마크가 좁은 도메인에 국한되고 정적이며 빠르게 포화된다는 비판에서 출발한다. 저자들은 “인간 게임 멀티버스(Multiverse of Human Games)”라는 개념을 도입해, 인간이 설계하고 즐길 수 있는 모든 게임을 일반 지능의 근사치로 정의한다. 이 접근법은 게임이 현실 세계의 복잡한 문제를 축소·추상화한 문화적 산물이라는 인류학적·인지과학적 근거에 기반한다.
AI GameStore는 세 단계 파이프라인으로 구성된다. 첫째, LLM을 활용해 Apple App Store와 Steam 상위 차트에서 게임 메타데이터와 핵심 메커니즘을 자동 추출한다. 둘째, 추출된 정보를 바탕으로 오픈소스 엔진(예: Unity, Godot)에서 동일한 규칙·목표·보상 구조를 갖는 표준화된 컨테이너 환경을 자동 생성한다. 셋째, 인간‑인‑루프(Human‑in‑the‑Loop) 단계에서 도메인 전문가가 게임 규칙을 검증·수정하고, 필요시 난이도와 인터페이스를 조정해 AI와 인간 모두가 동일한 입력·출력 인터페이스를 사용하도록 만든다. 이러한 자동화는 수천 개의 게임을 지속적으로 추가·갱신할 수 있는 확장성을 제공한다.
실험에서는 100개의 게임을 2분 짜리 플레이 세션으로 제한하고, 106명의 인간 피험자와 7개의 최신 비전‑언어 모델(예: GPT‑4V, LLaVA‑1.5, Flamingo 등)을 비교했다. 성능 평가는 평균 점수, 성공률, 행동 다양성, 그리고 인간과의 행동 궤적 유사도로 측정되었다. 결과는 모든 모델이 인간 평균 점수의 30% 이하를 기록했으며, 특히 세계 모델을 구축해야 하는 퍼즐·탐험형 게임, 장기 목표를 기억해야 하는 전략·시뮬레이션 게임, 복합적인 행동 순서를 요구하는 플래닝 게임에서 큰 격차가 나타났다. 또한 모델들은 인간보다 15~20배 높은 연산 시간을 소모했으며, 실시간 반응이 요구되는 액션 게임에서는 기본적인 입력 지연으로 인해 거의 플레이가 불가능했다.
이 논문은 몇 가지 중요한 시사점을 제공한다. 첫째, 인간 게임 멀티버스는 인지·학습·계획·사회적 상호작용 등 다양한 인간 능력을 동시에 시험할 수 있는 자연스러운 테스트베드임을 입증한다. 둘째, 현재 비전‑언어 모델은 시각 인식과 언어 이해는 어느 정도 수행하지만, 연속적인 세계 모델링과 장기 기억, 행동 계획을 통합하는 전반적인 인지 아키텍처가 부족함을 보여준다. 셋째, 자동화된 게임 생성 파이프라인은 저작권·플랫폼 이질성·데이터 오염 위험 등 실무적 제약을 어느 정도 완화하지만, 여전히 게임 엔진 호환성, 인간 피드백 비용, 그리고 생성된 게임의 다양성과 난이도 균형을 맞추는 문제가 남아 있다.
향후 연구 방향으로는 (1) 더 복잡한 멀티에이전트·소셜 인터랙션 게임을 포함해 인간 사회적 지능을 평가하고, (2) 메타러닝·연속 학습 프레임워크를 도입해 모델이 동일한 게임 환경에서 점진적으로 학습하도록 하는 방법, (3) 게임 생성 단계에서 인간‑AI 협업을 강화해 고품질·다양한 게임을 자동으로 설계하고, (4) 모델 훈련 데이터와 벤치마크 게임 간의 오염 여부를 검증하는 메커니즘을 구축하는 것이 제시된다. 전체적으로 AI GameStore는 인간 수준의 일반 지능을 측정·촉진하기 위한 실용적이면서도 확장 가능한 플랫폼으로서, 향후 AI 연구와 산업 응용에 중요한 기준점이 될 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기