시간 의존 실수 탐지를 위한 로봇 비디오 분석 프레임워크 TIMID

시간 의존 실수 탐지를 위한 로봇 비디오 분석 프레임워크 TIMID
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TIMID는 로봇이 수행하는 고수준 작업 영상과 텍스트 프롬프트(작업 설명 및 실수 유형)를 입력으로 받아, 영상 전체에 하나의 라벨만으로 학습되는 약한 지도 방식으로 프레임 단위 실수 존재 여부를 예측한다. 새로운 시뮬레이션 데이터셋을 구축해 시간‑의존적 실수를 제어·생성하고, 실세계 로봇에 대한 제로샷 평가까지 수행한다.

상세 분석

TIMID는 기존 비디오 이상 탐지(VAD) 기법을 로봇 작업 모니터링에 맞게 재구성한 점이 가장 큰 특징이다. 입력으로는 (1) 로봇 실행 영상, (2) 작업을 설명하는 텍스트 프롬프트 P, (3) 기대되는 실수 유형을 서술하는 텍스트 프롬프트 M을 받는다. 영상은 슬라이딩 윈도우로 나누어 사전 학습된 비디오 백본(예: SlowFast)으로 고차원 특징 X로 변환한다. 이후 두 단계의 어텐션 모듈이 적용된다. 첫 번째는 절대 위치 정보를 제공하는 사인 파형 Positional Encoding과, Gaussian‑like 동적 위치 인코딩 G를 결합한 새로운 유사도 행렬 E=QKᵀ/√dₖ+G를 이용해 전역 및 국부 흐름을 동시에 학습한다. 전역 스트림은 마스크 없이 전체 시퀀스를, 국부 스트림은 하위 삼각형 마스크 D를 적용해 미래 프레임을 차단함으로써 인과적 컨텍스트를 확보한다. 두 스트림은 학습 가능한 스칼라 α를 시그모이드 함수로 조정해 가중합 Z_time=σ(α)C_global+(1‑σ(α))C_local 로 융합된다.

두 번째 어텐션은 텍스트와 영상 특징을 정렬한다. CLIP 텍스트 인코더로부터 얻은 Z_task을 키와 밸류로, Z_time을 쿼리로 변환한 뒤 스케일드 닷‑프로덕트 어텐션을 수행한다. 이 과정에서 텍스트에 명시된 시간 논리(예: “lion before ball”)가 영상의 특정 시점에 매핑되도록 학습한다. Residual 연결과 LayerNorm을 거쳐 Z_sem을 얻고, 최종 선형 레이어 W_O를 통해 프레임별 실수 점수 ŷ_t를 출력한다.

학습은 완전히 약한 지도 방식으로, 비디오 수준 라벨(실수가 존재하는지 여부)만 사용한다. 프레임 점수 S를 영상 수준 점수 s_pool으로 풀링하는 전략은 Multiple Instance Learning(MIL) 기반이다. 정상 영상은 최대 프레임 점수 max(S)를 사용해 어떠한 프레임에서도 양성 예측이 없도록 강제하고, 이상 영상은 상위 k개( k≈T/32) 평균을 사용해 실수가 발생한 구간을 강조한다. BCE 손실과 함께, 전역 영상 특징 f_global에 대해 라벨 기반 대비 손실(L_con)도 적용해 정상·이상 영상 간 표현 거리를 확대한다.

데이터 측면에서 저자들은 다중 로봇 시뮬레이션 환경을 구축했다. 두 개의 원시 객체(Lion, Ball)와 세 대의 TurtleBot이 존재하며, 작업은 “상호 배제”(동시에 두 객체에 접근 금지)와 “순차적 순서”(Ball을 먼저 방문) 두 가지로 정의된다. 작업 및 실수는 Linear Temporal Logic(LTL) 공식으로 기술되고, 이를 Büchi 자동화기로 변환해 무작위 행동 시퀀스를 생성한다. 시뮬레이션은 Gazebo와 ROS2 Nav2 스택을 이용해 실제 로봇 움직임을 모사하고, 실제 로봇에서 촬영한 영상도 포함해 시뮬‑실제 전이(zero‑shot) 성능을 검증한다.

실험 결과, 기존 비디오‑언어 모델(VLM)인 CLIP‑based PEL4VAD는 텍스트와 영상의 정합은 가능하지만 시간적 논리를 파악하지 못해 성능이 급격히 떨어진다. 반면 TIMID는 프레임‑레벨 정확도와 AUC 모두에서 유의미하게 우수했으며, 특히 시뮬레이션에서 학습한 모델이 실제 로봇 영상에서도 실수를 탐지하는 제로샷 전이 능력을 보여준다. 한계점으로는 현재 프레임 단위 예측이 비교적 짧은 영상(수백 프레임)에서 최적화돼 긴 연속 작업에 대한 스케일링이 필요하고, 텍스트 프롬프트가 LTL 형태에 가까워야 한다는 제약이 있다. 향후 연구에서는 멀티모달 센서(포스, 토크)와 결합한 하이브리드 모델, 그리고 자동 프롬프트 생성 기법을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기