스케일링 행동 복제로 인한 인과 추론 향상: 실시간 비디오 게임 플레이 오픈 모델
초록
본 논문은 8,300시간 이상의 고품질 인간 게임플레이 데이터를 활용해, 소비자용 GPU에서도 실시간으로 동작 가능한 행동 복제(BC) 기반 비디오 게임 플레이 기반 모델을 공개한다. 모델 크기와 데이터 양을 단계적으로 확대하면서 인과적 정책 학습이 어떻게 개선되는지를 실험적으로 입증하고, 150M~1.2B 파라미터 규모의 모델에서 인과 혼란(causal confusion)이 감소함을 보인다.
상세 분석
이 연구는 행동 복제(Behavior Cloning, BC)의 스케일링 법칙을 체계적으로 탐구한다는 점에서 의미가 크다. 먼저 8,300시간에 달하는 600백만 이미지‑액션 쌍을 수집하고, 텍스트 주석, 교정 데이터, 비라벨 데이터까지 포함한 다중모달 데이터 파이프라인을 구축하였다. 데이터는 20 FPS로 기록되며, 게임마다 해상도·마우스 감도·플레이 스타일이 다양해 일반화 능력을 자연스럽게 강화한다.
모델 아키텍처는 ‘Pixels2Play (P2P)’라 명명된 디코더‑전용 트랜스포머 기반 정책망이다. 이미지 토큰화는 EfficientNet‑B0의 앞 6계층을 이용해 1~4개의 시각 토큰으로 압축하고, 텍스트는 사전학습된 EmbeddingGemma를 사용해 고정한다. 핵심 트랜스포머는 이미지·텍스트·‘reasoning’ 토큰·실제 행동 토큰·예측 행동 토큰을 순차적으로 입력받으며, ‘action decoder’가 예측 토큰을 8개의 세부 행동 토큰(키보드 4개, 마우스 x·y, 마우스 버튼 2개)으로 전개한다. 이 설계는 전체 토큰 수를 최소화해 20 Hz 실시간 추론을 가능하게 하고, ground‑truth 행동 토큰을 입력에 포함시켜 인간‑같은 연속 행동을 학습한다.
인과 혼란을 정량화하기 위해 저자들은 간단한 토이 환경에서 ‘인과 점수(causality score)’를 정의하고, 모델 크기·데이터 양을 늘릴 때 점수가 상승함을 확인했다. 특히, 작은 모델(150M)에서는 시각 입력보다 과거 행동을 복제하는 경향이 강했으나, 1.2B 파라미터 모델에서는 시각적 원인에 더 큰 가중치를 두어 브레이크 라이트와 같은 비인과적 신호에 의존하는 현상이 크게 감소했다.
학습‑추론 격차를 줄이기 위한 실용적 공학적 조치도 상세히 기술한다. 압축·리사이징 파이프라인 차이에서 발생하는 색공간(YUV vs RGB)와 리사이징 함수(PyTorch vs Rust)의 미세 차이가 모델 출력에 미치는 영향을 실험적으로 분석하고, RGB 인코딩과 비트‑동일 리사이징을 적용해 격차를 최소화했다.
전체 실험에서는 5개의 데이터 비율(6 %~100 %)과 4가지 모델 규모를 교차 적용해 테스트 손실과 인과 점수 사이에 명확한 멱법칙 관계를 발견했다. 또한, 공개된 3D 게임(예: ‘Quarter Odis’, ‘Simple‑FPS’)에서 인간 수준의 점수를 기록했으며, 실시간 플레이 시 평균 프레임당 지연이 45 ms 이하로 유지돼 소비자 GPU에서도 원활히 동작한다.
이 논문은 (1) 대규모 멀티게임 BC 데이터셋 공개, (2) 실시간 추론이 가능한 경량 트랜스포머 설계, (3) 스케일링이 인과적 정책 품질을 향상시킨다는 경험적 증거를 제공한다는 점에서 향후 게임 AI, 로보틱스, 그리고 일반적인 시뮬레이션 기반 정책 학습에 중요한 기준점을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기