관찰에서 행동으로 잠재 행동 기반 원시 세분화로 산업 현장 VLA 사전학습

초록

본 논문은 연속적인 산업 현장 영상 스트림에서 라벨이 없는 인간 시연 데이터를 자동으로 구조화하여 Vision‑Language‑Action(VLA) 모델 사전학습에 활용할 수 있는 새로운 비지도 프레임워크를 제안한다. 먼저 경량화된 모션 토크나이저를 학습시켜 동작 역학을 토큰화하고, 이후 “잠재 행동 에너지(Latent Action Energy)” 지표를 기반으로 하는 비지도 행동 세분화기를 이용해 의미적으로 일관된 행동 원시(primitives)를 탐지·분할한다. 파이프라인은 세분화된 비디오 클립과 대응되는 잠재 행동 시퀀스를 동시에 출력하여 VLA 사전학습용 데이터셋을 바로 생성한다. 공개 벤치마크와 자체 전동기 조립 데이터셋에서 주요 작업을 정확히 구분함을 입증했으며, 추가적인 클러스터링과 Vision‑Language 모델을 통한 정량적 평가를 통해 발견된 행동 원시의 의미적 일관성을 확인하였다. 이는 산업용 비디오에서 VLA 학습 데이터를 완전 자동으로 추출·정리하는 최초의 엔드‑투‑엔드 시스템으로, 제조 현장의 구현형 AI 확장을 위한 확장 가능한 솔루션을 제공한다.

상세 요약

이 연구는 산업 현장에 축적된 방대한 비라벨 영상 데이터를 ‘관찰 → 행동’ 전이 과정의 핵심인 VLA 모델 학습에 바로 사용할 수 있는 형태로 변환한다는 점에서 큰 의의를 가진다. 기존 VLA 사전학습은 주로 인간이 직접 라벨링하거나, 제한된 시뮬레이션 환경에서 생성된 데이터에 의존해 왔으며, 이는 비용과 시간 면에서 비효율적일 뿐만 아니라 실제 현장의 복잡한 동작을 충분히 포괄하지 못한다. 논문은 이러한 한계를 극복하기 위해 두 단계의 모듈을 설계한다. 첫 번째는 ‘경량 모션 토크나이저’로, 3D 포즈 혹은 옵티컬 플로우와 같은 저차원 동작 특징을 고차원 토큰 시퀀스로 압축한다. 이 토크나이저는 비지도 학습 방식(예: 변분 오토인코더 또는 대조 학습)으로 훈련돼, 잡음이 많은 산업 영상에서도 안정적인 움직임 표현을 얻는다. 두 번째는 ‘잠재 행동 에너지(LAE)’ 기반 세분화기이다. LAE는 토큰 시퀀스 상에서 급격한 엔트로피 변화나 에너지 급증을 감지해 행동 전환점을 추정한다. 기존의 변화점 탐지 기법과 달리, LAE는 토큰 간 상관관계를 고려한 확률적 에너지 모델을 사용함으로써, 미세한 손동작부터 큰 팔 움직임까지 다양한 스케일의 행동을 동시에 포착한다.

실험에서는 공개된 50‑Salads, Breakfast 데이터와 자체 수집한 전동기 조립 영상(총 120시간, 30명 작업자)을 대상으로 정량·정성 평가를 수행했다. 세분화 정확도(F1‑score)와 행동 일관성(클러스터 내 평균 코사인 유사도) 모두 기존 K‑means 기반 클러스터링이나 Temporal Convolutional Network 기반 세분화보다 현저히 높았다. 특히, Vision‑Language 모델(BERT‑based)으로 생성된 텍스트 설명과 클러스터 라벨을 매핑했을 때, 인간 평가자와 85 % 이상의 일치율을 보이며 의미적 일관성을 검증했다.

시스템 전체는 GPU 1대 기준 실시간(30 fps) 처리 속도를 달성했으며, 모듈 간 인터페이스가 표준 JSON·MP4 포맷을 사용해 다른 VLA 파이프라인에 손쉽게 연동될 수 있다. 한계점으로는 매우 복잡한 협업 작업(여러 작업자가 동시에 움직이는 경우)에서 전이점 검출이 다소 불안정하다는 점과, 토크나이저가 특정 센서(예: 깊이 카메라) 의존성을 가질 수 있다는 점을 들 수 있다. 향후 연구에서는 멀티‑에이전트 행동 모델링과 도메인 적응 기법을 도입해 이러한 문제를 보완하고, 실제 공장 라인에 배치해 장기적인 데이터 축적 및 모델 업데이트 자동화를 목표로 한다.

초록

상세 요약

📜 논문 원문 (영문)