다목적 임베디드 플래너 OmniEVA
초록
OmniEVA는 2D와 3D 정보를 작업 요구에 따라 동적으로 결합하고, 로봇의 물리적 제약을 계획 과정에 통합함으로써 기존 멀티모달 LLM 기반 임베디드 시스템의 공간 적응성 및 실행 가능성 격차를 해소한다. 태스크‑어댑티브 3D 그라운딩 게이트와 임베디드‑어웨어 리이징 프레임워크를 도입해 8개 벤치마크 중 7개에서 최고 성능을 기록했으며, 새로운 원시 작업(Where2Go·Where2Grasp·Where2Approach·Where2Fit)에서도 우수한 일반화를 보인다.
상세 분석
OmniEVA가 제시하는 두 가지 핵심 혁신은 ‘태스크‑어댑티브 3D 그라운딩’과 ‘임베디드‑어웨어 리이징’이다. 첫 번째는 기존 3D‑LLM이 모든 입력에 고정적으로 3D 정보를 주입하는 문제를 해결한다. 논문에서는 이미지‑패치와 동일한 크기로 3D 좌표를 평균화한 뒤 사인‑포지셔널 인코딩을 적용하고, 이를 Vision Transformer의 토큰과 결합한다. 중요한 점은 ‘Task‑Adaptive Gated Router(TA‑GR)’가 텍스트 명령을 Sentence‑Transformer로, 시각 입력을 평균 풀링으로 요약한 뒤 MLP에 통합해 게이트 로그를 생성한다는 것이다. Gumbel‑Softmax를 이용한 하드 게이팅으로 0 혹은 1을 선택해 3D 피처를 전혀 사용하지 않거나 완전 결합한다. 이 설계는 작업이 3D 정밀도가 필요할 때만 3D 정보를 활성화함으로써 불필요한 계산과 노이즈를 최소화하고, 2D‑중심 질문에서는 순수 2D 토큰만 사용해 효율성을 유지한다.
두 번째 혁신은 물리적 제약을 모델의 추론 루프에 직접 반영한다는 점이다. 기존 연구는 주로 데이터셋 수준에서 제약을 암시했지만, OmniEVA는 ‘Task‑and‑Embodiment‑aware GRPO(TE‑GRPO)’라는 강화학습 기반 파인튜닝을 도입한다. 여기서는 목표 상태와 로봇의 관절·작업공간·물체 어포던스 등을 보상 함수에 포함시켜, 생성된 계획이 실제 로봇에서 실행 가능하도록 학습한다. 특히, 게이트가 고정된 후에도 LLM 백본을 재학습하지 않고, 임베디드‑어웨어 모듈만 업데이트함으로써 사전 학습된 언어 지식을 보존한다.
학습 파이프라인은 세 단계로 구성된다. ① TA‑GR 사전학습 – ScanNet·Matterport3D·3RScan 등 대규모 3D 데이터셋을 이용해 게이트 정책을 학습한다. ② 일반 임베디드 추론을 위한 슈퍼바이즈드 파인튜닝 – 2D·3D·비디오 기반 다양한 멀티모달 작업을 포함한 하이브리드 데이터셋으로 모델의 전반적인 공간·언어 이해 능력을 강화한다. ③ TE‑GRPO 강화 파인튜닝 – 실제 로봇 제약을 반영한 시뮬레이션 환경에서 정책을 미세조정한다.
실험 결과는 설득력 있다. 8개의 공개 벤치마크(2D VQA, 3D 시각적 그라운딩, 비디오 기반 장면 이해 등) 중 7개에서 SOTA를 달성했으며, 특히 HM3D·MP3D와 같은 대규모 네비게이션 데이터셋에서 기존 최고 모델을 크게 앞섰다. 새로 제안한 원시 작업군(Where2Go·Where2Grasp·Where2Approach·Where2Fit)에서도 모든 지표에서 우위를 보였으며, 이는 모델이 작업별로 3D 정보를 선택적으로 활용하고, 물리적 제약을 고려한 계획을 생성한다는 가설을 실증한다. 또한, 게이트 활성화 비율 분석을 통해 3D가 필수적인 질문에서는 95% 이상 활성화되고, 색상·텍스트 기반 질문에서는 10% 이하로 억제되는 것을 확인했다.
전반적으로 OmniEVA는 멀티모달 LLM이 실제 로봇 시스템에 적용될 때 마주치는 ‘공간 적응성’과 ‘실행 가능성’ 두 가지 핵심 장벽을 구조적으로 해결한다. 동적 3D 게이팅 메커니즘은 모델의 연산 효율성을 유지하면서도 복잡한 3D 추론 능력을 제공하고, 강화학습 기반 임베디드‑어웨어 파인튜닝은 생성된 행동 계획이 물리적으로 실현 가능하도록 만든다. 이러한 설계는 향후 로봇 내비게이션, 모바일 매니퓰레이션, 인간‑로봇 협업 등 다양한 실제 응용 분야에 바로 적용 가능한 범용 임베디드 플래너의 청사진을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기