I‑FailSense 로봇 실패 탐지를 위한 비전‑언어 모델 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

I‑FailSense는 언어‑조건부 로봇 조작에서 발생하는 의미 불일치 오류를 탐지하기 위해 기존 VLM을 경량화된 분류 헤드(FS 블록)와 앙상블 방식으로 확장한 프레임워크이다. 시뮬레이션 데이터셋을 활용해 의미 불일치 실패를 학습했음에도, 제어 오류와 실제 환경에서도 제로샷·소량 파인튜닝으로 높은 정확도를 보이며, 기존 대형 VLM을 능가한다.

상세 분석

본 논문은 로봇 조작에서 “의미 불일치(Semantic Misalignment)”라는 비교적 새롭고 미묘한 실패 유형에 초점을 맞춘다. 기존 연구는 주로 그리핑 실패, 물체 놓침 등 저수준 제어 오류에 집중했으나, 의미 불일치는 로봇이 시각·동작은 정상적으로 수행하지만 인간이 의도한 목표와는 다른 행동을 할 때 발생한다. 이를 검출하려면 언어와 시각·시간적 정보를 동시에 정밀하게 정합해야 하는데, 일반적인 VLM은 이미지‑텍스트 정합 수준에서는 강력하지만, 연속된 프레임에 걸친 동작 추론과 미세한 객체 구분에서는 한계가 있다.

I‑FailSense는 두 단계의 포스트 트레이닝 파이프라인을 제안한다. 첫 단계에서는 LoRA 기반의 파라미터 효율적 파인튜닝(PEFT)으로 기본 VLM(PaliGemma2‑mix‑3B)의 언어 모듈에 적은 수의 저랭크 매개변수를 추가한다. 이때 비전 인코더는 고정하고, 언어‑시각 교차 모듈만을 미세조정함으로써 작업 특화된 표현을 얻는다. 두 번째 단계에서는 VLM 내부 여러 층에 경량 이진 분류 헤드(FS 블록)를 부착하고, 각 블록이 독립적으로 성공/실패를 예측하도록 학습한다. 마지막에는 다수결 기반 앙상블(arbitration)으로 최종 결정을 내리며, 이는 단일 레이어에 의존하는 기존 방법보다 견고성을 크게 향상시킨다.

데이터 구축 측면에서는 기존 언어‑조건부 조작 데이터셋의 전문가 시연을 활용해, 동일 트래젝터리를 서로 다른 목표 문장과 매칭함으로써 의미 불일치 라벨을 자동 생성한다. 긍정 샘플은 원래 목표와 일치, 부정 샘플은 같은 작업 카테고리 내 다른 색상·방향 명령을 붙여 미묘한 차이를 학습하게 만든다.

실험 결과, I‑FailSense는 제안된 시뮬레이션 데이터셋에서 90% 이상의 정확도를 달성했으며, AHA 데이터셋(제어 오류 포함)에서도 기존 VLM 기반 베이스라인보다 19%p 높은 성능을 보였다. 실제 로봇 환경에서도 FS 블록만 최소한의 파인튜닝으로 74% 정확을 기록, 시뮬‑실제 간 도메인 격차를 크게 완화한다. 모델 크기 대비 효율성도 뛰어나, 3B 파라미터 모델임에도 대형 VLM 대비 우수한 결과를 얻는다.

이러한 설계는 (1) 의미 불일치와 같은 고차원 실패를 탐지할 수 있는 언어‑시각 정합 능력, (2) 경량화된 헤드와 앙상블을 통한 견고한 추론, (3) 다양한 도메인·오류 유형에 대한 제로샷 일반화 가능성을 동시에 제공한다는 점에서 로봇 학습·배포 파이프라인에 중요한 전진을 의미한다.

I‑FailSense 로봇 실패 탐지를 위한 비전‑언어 모델 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기