시각‑언어‑행동 모델의 시각 손상 복원으로 강인성 향상

시각‑언어‑행동 모델의 시각 손상 복원으로 강인성 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로봇 조작을 위한 Vision‑Language‑Action(VLA) 모델이 센서 수준의 이미지 손상에 극도로 취약함을 실증하고, 이를 해결하기 위해 이미지 복원 전용 Vision Transformer인 Corruption Restoration Transformer(CRT)를 제안한다. CRT는 기존 VLA를 재학습하지 않고도 손상된 입력을 정화하여 성공률을 원래 수준으로 회복한다. LIBERO와 Meta‑World 벤치마크에서 광범위한 실험을 통해 CRT가 다양한 잡음·픽셀 결함·물방울 등에 대해 90% 수준의 성공률을 2% 수준으로 떨어지는 현상을 거의 완전히 되돌림을 확인하였다.

상세 분석

이 논문은 로봇 조작 분야에서 최근 각광받고 있는 VLA 모델들의 실제 적용 장벽인 ‘시각적 강인성’ 문제를 정확히 짚어낸다. 기존 연구가 물리적 가림(occlusion)이나 조명 변화에 초점을 맞춘 반면, 저자는 센서 자체에서 발생하는 이미지 손상(노이즈, 죽은 픽셀, 렌즈 오염 등)을 별도 연구 주제로 정의하고, 이를 정량화한다. 실험 결과, 최신 VLA인 π₀.₅와 SmolVLA가 90% 수준의 성공률을 보이던 것이, 단순한 가우시안 노이즈나 수평 라인 잡음 등으로 인해 2% 이하로 급락한다는 점은 매우 설득력 있다.

CRT의 설계는 크게 세 가지 핵심 메커니즘을 결합한다. 첫째, Shifted Patch Tokenization(SPT)은 전통적인 ViT가 갖는 지역적 인덕티브 바이어스를 보완해, 작은 결함 영역도 정확히 포착한다. 둘째, Rotary Position Embedding(RoPE)은 절대·상대 위치 정보를 동시에 인코딩해, 복원 과정에서 이미지 전체 구조를 유지한다. 셋째, Locality Self‑Attention(LSA)은 전역 attention의 계산량을 줄이면서도 텍스처 디테일을 강조한다. 이러한 설계는 원 논문


댓글 및 학술 토론

Loading comments...

의견 남기기