드리프트를 미리 차단하는 BudVLN

드리프트를 미리 차단하는 BudVLN
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연속 3D 환경에서 자연어 지시를 수행하는 Vision‑Language Navigation(VLN) 에이전트의 노출 편향 문제를 해결하기 위해 BudVLN이라는 온라인 학습 프레임워크를 제안한다. BudVLN은 정책의 현재 상태 분포에 맞는 감독을 실시간으로 생성하고, 오류 상태에서 복구 행동을 강요하는 기존 DAgger 방식이 초래하는 “Instruction‑State Misalignment”를 방지한다. 핵심 메커니즘은 (1) 성공적인 샘플에 대해서는 Group Relative Policy Optimization(GRPO)으로 효율적인 탐색을 강화하고, (2) 실패 샘플에 대해서는 과거의 올바른 상태로 재앵커링하여 의미 일관성을 유지하는 Retrospective Rectification(SFT)으로 지도 신호를 합성한다. R2R‑CE와 RxR‑CE 벤치마크에서 SR과 SPL 모두 기존 최첨단을 크게 앞선 성능을 기록한다.

상세 분석

BudVLN은 VLN‑CE 문제를 POMDP로 정의하고, 에이전트가 매 타임스텝마다 RGB 이미지와 지시문을 입력받아 이산 행동을 선택하도록 설계한다. 기존 IL 기반 Teacher‑Forcing은 학습 시 전문가 상태에만 의존해 노출 편향을 야기하고, DAgger는 오류 상태에서 복구 경로를 제공하지만 지시와 모순되는 행동을 학습하게 만든다. 논문은 이를 “Instruction‑State Misalignment”라 명명하고, 특히 큰 편차가 발생했을 때 “뒤로 돌아가서 복구”하는 행동이 “직진하라”는 지시와 충돌한다는 점을 강조한다.

BudVLN은 두 단계의 동적 라우팅을 도입한다. 먼저 Greedy Probe를 수행해 현재 정책의 숙련도를 평가한다. 성공이면 해당 샘플을 ‘Proficiency Pathway’로 보내고, 동일 지시에 대해 추가적인 G‑1 개의 stochastic rollout을 생성한다. 여기서 GRPO는 그룹 내 평균·표준편차를 이용해 상대적 어드밴티지를 계산하고, KL 정규화와 클리핑을 적용한 PPO‑유사 목표함수(L_GRPO)로 정책을 업데이트한다. 이 과정은 별도 가치 함수 없이도 효율적인 샘플 효율성을 제공한다.

반면 Greedy Probe가 실패하면 ‘Rectification Pathway’로 전환한다. 논문은 네 가지 Failure Trigger(오프‑트랙, 진행 정체, 조기 정지, 강제 정지)를 정의하고, 트리거 발생 시 History‑Aware Rollback을 수행한다. 핵심은 ‘최신 유효 진행점’(last valid progress point)을 기준으로 지오데식 오라클을 호출해 해당 지점에서 목표까지의 최단 경로를 재구성하고, 이를 기반으로 의미 일관성을 유지하는 지도 데이터를 합성한다. 이렇게 생성된 SFT 데이터는 가중치가 부여된 손실(L_SFT)로 정책을 직접 교정한다.

이중 라우팅은 동일 샘플에 대해 GRPO와 SFT가 동시에 적용되지 않도록 ‘Adaptive Mutual Exclusion Strategy’를 사용한다. 따라서 탐색 효율과 지도 정확도가 상충하지 않으며, 학습 비용도 기존 DAgger 대비 약 25% 수준으로 감소한다. 실험에서는 R2R‑CE와 RxR‑CE에서 SR 73.2% / 68.5%와 SPL 61.4% / 57.2%를 달성해 기존 최고 기록을 크게 앞선다. 특히 어려운 길찾기 상황에서 Retrospective Rectification이 오류 전이를 효과적으로 차단함을 정량·정성 분석을 통해 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기