의도·환경 추상화로 무장한 차세대 비전‑언어‑액션 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MAIN‑VLA는 언어 명령의 핵심 의도와 시각 환경의 행동 가능성을 각각 압축된 의미 원시어와 위상적 어포던스 맵으로 변환한다. 두 추상화가 정렬되면서 자연스럽게 고농도 어텐션이 형성되고, 이를 이용해 파라미터 없이 시각 토큰을 프루닝해 연산량을 크게 줄인다. Minecraft와 대규모 PvP 게임(게임 포 피스, 발로란트)에서 기존 VLA 모델을 능가하는 의사결정 품질, 일반화 능력, 추론 속도를 입증한다.

상세 분석

MAIN‑VLA는 기존 비전‑언어‑액션(VLA) 파이프라인이 “모든 픽셀과 모든 토큰을 동일하게 처리한다”는 근본적인 한계를 인식하고, 인간의 의식적 병목(conscious bottleneck) 메커니즘을 모방한 두 단계 추상화 프레임워크를 제안한다. 첫 번째 단계인 Intention Abstraction(IA)은 자연어 명령을 자동으로 핵심 키워드(예: ‘wall’, ‘enemy’, ‘cover’)로 압축한다. 이 과정은 대규모 Foundation Model을 활용한 CoT 프롬프트와 RAG(검색‑증강 생성) 파이프라인을 통해 라벨이 없는 데이터에서도 의도 라벨을 생성한다. 생성된 키워드 시퀀스는 “hindsight intention alignment” 손실을 통해 행동 토큰 이전의 내부 표현에 강제 삽입되며, 모델이 행동을 예측하기 전에 의도 정보를 충분히 내재하도록 만든다.

두 번째 단계인 Environment Semantics Abstraction(ESA)은 고해상도 시각 입력을 의미 기반의 저해상도 그리드(M_sem)로 변환한다. 여기서는 사전 학습된 의미 분할 모델을 이용해 픽셀 수준의 라벨을 얻고, 우선순위 계층(인물 > 차량 > 피난처 > 아이템 > 기타)을 적용해 각 그리드 셀당 상위 K(보통 2) 클래스를 선택한다. 이렇게 얻어진 토큰 시퀀스는 행동 토큰 뒤에 이어 붙어 Transformer에 입력되며, 시각 정보가 “행동에 직접적인 어포던스”로 압축된다.

두 추상화가 동시에 존재함으로써 모델 내부 어텐션은 자연스럽게 의도‑환경 정렬에 집중한다. 저농도 어텐션 분포는 파라미터‑프리 토큰 프루닝 전략을 가능하게 하며, 추론 시 어텐션 점수가 낮은 시각 토큰을 단순히 제거해도 성능 저하가 거의 없다는 실험적 증거를 제공한다. 이는 기존 VLA가 필요로 하는 대규모 연산량을 크게 감소시켜 실시간 게임 환경에서도 적용 가능하게 만든다.

기술적 기여는 다음과 같다. (1) 의도와 환경을 각각 의미 원시어와 위상 어포던스 그리드로 명시적 추상화하는 새로운 아키텍처 설계, (2) 자동 의도 라벨링 파이프라인과 hindsight alignment 손실을 통한 의도 내재화, (3) 우선순위 기반의 의미 그리드 생성 및 토큰화 방식, (4) 어텐션 기반 파라미터‑프리 프루닝을 통한 추론 효율성 향상. 실험에서는 Minecraft의 오픈 월드 탐색, Game for Peace와 Valorant의 실시간 PvP 전투에서 기존 최첨단 모델(RT‑1, OpenVLA, Octo 등)을 크게 앞서는 성공률, 평균 보상, FPS(초당 프레임)당 추론 시간 등을 기록하였다. 특히, 프루닝 비율을 70 %까지 늘려도 평균 보상 감소가 1 % 미만에 그쳐, 효율성과 성능 사이의 트레이드오프를 최소화함을 보여준다.

전반적으로 MAIN‑VLA는 “의도‑환경 정렬”이라는 고차원 의미 연결을 명시적으로 학습함으로써, 복잡하고 변동성이 큰 디지털 세계에서 인간 수준의 선택적 주의와 행동 계획을 구현하는 방향을 제시한다.

의도·환경 추상화로 무장한 차세대 비전‑언어‑액션 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기