언어 기반 사전 행동 예측으로 빠른 로봇 안전 제어
초록
본 논문은 정책의 잠재 상태와 계획된 행동만으로도 미래 결과를 충분히 예측할 수 있다는 “잠재 충분성 가설”을 제시한다. 이를 검증하기 위해 시각‑언어 모델(VLM)을 교사로, 정책 잠재와 행동 청크를 입력으로 하는 경량 언어 모델(LLM)을 학생으로 하는 DILLO(DIstilled Language‑Action World Model)를 설계하였다. DILLO는 시각 시뮬레이션 없이 텍스트 기반으로 다음 상태를 서술하고 성공 여부를 판단함으로써 기존 비전 기반 월드 모델 대비 14배 빠른 추론 속도를 달성하고, MetaWorld와 LIBERO 환경에서 에피소드 성공률을 평균 9.3%p, 최고 15%p 향상시킨다.
상세 분석
DILLO의 핵심 아이디어는 정책이 학습 과정에서 이미 물체 기하, 거리, 접촉 등 작업에 필수적인 정보를 잠재 벡터(zₜ)에 압축한다는 점이다. 저자들은 이 잠재가 전체 관찰 히스토리(oₜ:ₜ₊ₖ)와 거의 동등한 상호 정보량을 가진다고 가정하고, 이를 “잠재 충분성 가설(Latent Sufficiency Hypothesis)”이라 명명한다. 가설을 검증하기 위해, 시뮬레이터에 접근 가능한 특권 VLM 교사는 각 행동 청크에 대해 고해상도 이미지와 6DoF 변위, 성공 여부 등을 이용해 자연어 설명(d_T)과 이진 판정(c_T)을 생성한다. 학생 모델은 정책 인코더가 출력하는 잠재(zₜ)와 행동 청크(aₜ:ₜ₊ₖ)를 각각 선형 프로젝터(P_z, P_a)를 통해 LLM 입력 임베딩으로 변환하고, Gemma 기반의 경량 LLM에 주입한다.
학습은 3단계 커리큘럼으로 진행된다. 첫 단계에서는 LLM 가중치를 고정하고 프로젝터만 학습해 잠재와 행동이 유효한 토큰 시퀀스로 매핑되도록 한다. 두 번째 단계에서는 LoRA를 적용해 LLM 자체를 미세조정하고, 교사의 자연어 설명을 최대우도 방식으로 재현한다. 마지막 단계에서는 이진 판정 토큰을 추가로 예측하도록 하여, 설명 손실과 교차 엔트로피 손실을 가중합한 총 손실(L_Total)을 최소화한다.
실험에서는 MetaWorld와 LIBERO의 다중 로봇 조작 태스크에 DILLO를 적용했으며, 시각 기반 월드 모델(예: VLM‑in‑the‑loop) 대비 평균 0.26 초의 추론 시간(≈14× 속도 향상)을 기록했다. 성공률 향상은 특히 실패가 빈번한 복합 동작에서 두드러졌으며, 판정 정확도는 91.4%에 달했다. 또한, DILLO는 행동 청크를 다수 제시받아 가장 긍정적인 판정을 받은 것을 선택하는 “잠재 기반 거부 샘플링” 전략과 결합될 때, 기존 정책 대비 안정성이 크게 증가한다.
한계점으로는 교사 VLM이 시뮬레이터에서 제공하는 완전한 상태 정보를 필요로 하며, 실제 물리 세계에서는 고정밀 6DoF 추정이 아직 비용이 높다는 점을 들 수 있다. 또한, 현재 구현은 주로 조작 태스크에 초점을 맞추었고, 복합적인 시각‑언어 상호작용이 요구되는 장면(예: 복잡한 장면 이해)에서는 추가 연구가 필요하다. 그럼에도 불구하고, 시각 정보를 완전히 배제하고도 높은 수준의 예측과 해석 가능성을 제공한다는 점은 로봇 안전 제어와 실시간 인간‑로봇 협업에 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기