시각 언어 내비게이션을 위한 협업형 멀티모달 세계 모델

시각·언어 내비게이션(VLN)은 에이전트가 복잡한 환경을 시각 이미지와 자연어 지시문을 통해 자율적으로 이동하도록 요구한다. 최근 대규모 언어 모델(LLM)을 활용한 언어 기반 추론 기법이 좋은 성과를 보였지만, 이들 방법은 언어 모달리티에만 국한돼 시각적 추론이 부족하고, 추론 모듈과 내비게이션 정책이 별도로 최적화돼 목표 충돌이 발생한다. 이를 해결하기

시각 언어 내비게이션을 위한 협업형 멀티모달 세계 모델

초록

시각·언어 내비게이션(VLN)은 에이전트가 복잡한 환경을 시각 이미지와 자연어 지시문을 통해 자율적으로 이동하도록 요구한다. 최근 대규모 언어 모델(LLM)을 활용한 언어 기반 추론 기법이 좋은 성과를 보였지만, 이들 방법은 언어 모달리티에만 국한돼 시각적 추론이 부족하고, 추론 모듈과 내비게이션 정책이 별도로 최적화돼 목표 충돌이 발생한다. 이를 해결하기 위해 우리는 시각 상태 추론과 내비게이션 의사결정을 공동으로 최적화하는 새로운 프레임워크 UNeMo를 제안한다. UNeMo는 시각 특징, 언어 지시, 행동을 입력으로 받아 다음 시각 상태를 예측하는 멀티모달 세계 모델(MWM)을 도입한다. 계층형 예측‑피드백 메커니즘(HPN)에서 첫 번째 계층은 현재 시각·언어 정보를 기반으로 행동을 생성하고, MWM은 해당 행동 이후의 시각 상태를 추론해 두 번째 계층의 세밀한 결정에 활용한다. 이렇게 MWM의 추론이 내비게이션 정책을 보강하고, 정책의 선택이 다시 MWM의 추론 정확도를 향상시키는 양방향 협업이 이루어진다. R2R 및 REVERIE 데이터셋에서 실험한 결과, UNeMo는 미보인 장면에서 기존 최첨단 모델보다 각각 2.1%와 0.7% 높은 내비게이션 정확도를 달성해 그 효과를 입증한다.

상세 요약

Vision‑and‑Language Navigation(VLN)은 로봇이나 가상 에이전트가 실제와 유사한 3D 환경에서 인간이 제공하는 자연어 지시를 따라 목표 지점까지 이동해야 하는 복합 문제이다. 기존 연구는 주로 언어 이해와 시각 인식 두 축을 별도로 강화하는 방식을 취했으며, 최근에는 사전 학습된 대규모 언어 모델(LLM)을 활용해 언어 기반 추론 능력을 끌어올리는 시도가 활발히 진행되었다. 그러나 이러한 LLM‑기반 접근은 텍스트 정보에만 초점을 맞추어 시각적 상황에 대한 추론을 충분히 수행하지 못한다는 근본적인 한계가 있다. 예를 들어 “주방으로 들어가서 냉장고를 찾아라”라는 명령을 수행할 때, 에이전트는 현재 시점의 시각 정보를 바탕으로 냉장고가 어디에 있을지, 앞으로 이동할 경로에서 어떤 시각적 변화를 기대할지를 스스로 예측해야 한다. LLM만으로는 이러한 시각‑언어 연계 추론을 구현하기 어렵다.

또 다른 문제는 추론 모듈과 내비게이션 정책이 독립적으로 학습된다는 점이다. 추론 모듈은 미래 시각 상태를 예측하도록 설계되고, 내비게이션 정책은 현재 관측에 기반해 행동을 선택한다. 두 모듈이 서로 다른 손실 함수를 최소화하도록 훈련되면, 정책이 추론 결과와 불일치하는 행동을 선택하거나, 추론이 정책의 실제 행동을 반영하지 못해 예측 정확도가 떨어지는 상황이 발생한다. 이는 최적화 목표가 충돌하면서 전체 시스템 성능을 저해한다.

UNeMo는 이러한 구조적 결함을 근본적으로 해결한다. 핵심은 멀티모달 세계 모델(MWM)이다. MWM은 시각 피처, 언어 지시, 그리고 현재 행동을 모두 입력으로 받아 다음 시점의 시각 피처를 예측한다. 즉, “행동 → 시각 변화”라는 인과 관계를 명시적으로 모델링함으로써, 에이전트가 미래 시각 상황을 사전에 시뮬레이션할 수 있게 만든다. 이 과정에서 언어와 시각이 서로 보완적으로 작용한다; 언어는 목표와 제약을 제공하고, 시각은 실제 환경 변화를 반영한다.

계층형 예측‑피드백(Hierarchical Prediction‑Feedback, HPN) 메커니즘은 MWM과 내비게이션 정책을 두 단계로 연결한다. 1단계에서는 현재 관측된 시각‑언어 특징을 이용해 기본 행동을 생성한다. 이 행동은 즉시 MWM에 전달되어 “이 행동을 수행했을 때 다음 시각 상태는 어떨까?”를 예측한다. 2단계에서는 MWM이 제공한 미래 시각 예측을 추가 입력으로 사용해 보다 정교한 행동을 선택한다. 이렇게 하면 정책이 단순히 현재 상태에만 의존하지 않고, 미래 시각 상황을 고려한 계획을 세울 수 있다. 동시에, 정책이 선택한 행동은 MWM의 학습 데이터가 되므로, MWM은 실제 정책이 선호하는 행동 패턴에 맞춰 예측 정확도를 지속적으로 개선한다. 이 양방향 피드백 루프는 두 모듈이 공동 최적화되는 협업 구조를 만든다.

실험 결과는 이러한 설계가 실제 성능 향상으로 이어짐을 보여준다. R2R(Room‑to‑Room)과 REVERIE 데이터셋은 각각 실내 경로 탐색과 객체 찾기 과제를 제공한다. 미보인 씬(unseen scenes)에서 UNeMo는 기존 최첨단 모델 대비 2.1%와 0.7%의 정확도 상승을 기록했으며, 이는 특히 복잡한 시각‑언어 상호작용이 요구되는 상황에서 미래 시각 예측이 정책 선택에 미치는 긍정적 영향을 입증한다. 또한, MWM이 제공하는 시각적 ‘예측 지도’는 에이전트가 불확실한 구역을 회피하거나, 목표 물체가 나타날 가능성이 높은 영역을 우선 탐색하도록 유도한다는 부가적인 장점도 있다.

요약하면, UNeMo는 (1) 시각·언어 정보를 통합한 멀티모달 세계 모델을 도입해 시각적 추론 능력을 강화하고, (2) 계층형 예측‑피드백을 통해 추론과 정책을 공동 최적화함으로써 목표 지시 수행의 효율성을 높인다. 향후 연구에서는 MWM에 더 정교한 물리적 시뮬레이션이나 장면 그래프를 결합해 복합적인 상호작용을 모델링하거나, 실시간 로봇 시스템에 적용해 현장 테스트를 진행하는 방향이 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...