사용자 피드백 기반 적응으로 시각‑언어 내비게이션 강화
읽는 시간: 2 분
...
📝 원문 정보
- Title: User-Feedback-Driven Adaptation for Vision-and-Language Navigation
- ArXiv ID: 2512.10322
- 발행일: 2025-12-11
- 저자: Yongqiang Yu, Xuhui Li, Hazza Mahmood, Jinxing Zhou, Haodong Hong, Longtao Jiang, Zhiqiang Xu, Qi Wu, Xiaojun Chang
📝 초록 (Abstract)
실제 환경에서 시각‑언어 내비게이션(VLN) 에이전트를 운영하려면 오프라인 학습 이후에 얻을 수 있는 신뢰할 만한 지도 데이터가 부족하다는 제약이 있다. 기존 적응 방법들은 환경 자체에서 얻는 자기지도 신호(예: 엔트로피 최소화)를 활용해 분포 이동을 완화하려 하지만, 이러한 신호는 잡음이 많아 장시간 순차 의사결정 과정에서 에이전트가 자신의 오류를 증폭시킬 위험이 있다. 본 연구에서는 에피소드 수준의 성공 확인과 목표 수준의 수정이라는 형태의 사용자 피드백을 VLN의 주요 일반 목적 감독 신호로 전환한다. 내부 신뢰 점수와 달리 사용자 피드백은 의도와 일치하고 상황에 즉시 적용 가능하여, 에이전트가 지시와 어긋나는 행동을 바로 잡는다. 이를 효과적으로 활용하기 위해 우리는 위상 인식 경로 구성 파이프라인을 도입한다. 이 파이프라인은 에이전트가 점진적으로 구축하는 토폴로지 그래프 위에서 실행 가능한 경로를 생성함으로써, 희소한 목표 수준 수정 정보를 밀집된 경로 수준 감독으로 “올려” 샘플 효율적인 모방 학습을 가능하게 한다. 또한, 이전 세션에서 획득한 토폴로지와 캐시된 표현을 재활용할 수 있는 지속 메모리 뱅크 메커니즘을 설계해 네비게이션 세션 간 warm‑start 초기화를 지원한다. GSA‑R2R 벤치마크에서 광범위한 실험을 수행한 결과, 우리의 접근법은 희소한 상호작용을 강력한 감독으로 전환하여 환경 기반 베이스라인을 지속적으로 능가하고, 다양한 지시 스타일에 대한 적응력도 뛰어남을 확인했다. 코드와 구현은 https://github.com/seaotter999/UFD 에 공개한다.💡 논문 핵심 해설 (Deep Analysis)
