원자 행동 분할: 플래너와 정렬된 일반화 가능한 VLA 옵션

초록

본 논문은 장기 시연을 짧고 타입이 지정된 원자 행동으로 분할하는 “Atomic Action Slicing”(AAS) 방식을 제안한다. LIBERO 데이터셋을 활용해 2,124개의 원자 세그먼트를 라벨링하고, 이를 기반으로 CLIP‑RT+ 모델을 미세조정해 기존 VLA 모델의 성공률을 LIBERO‑Goal에서 94.2%→95.3%, LIBERO‑Long에서 83.8%→88.8%로 향상시켰다. 또한 Gemini 2.5 Pro 기반 세그먼터가 플래너 정의 계획과 높은 일치도를 보이며 키프레임 잡음에도 강인함을 입증한다.

상세 분석

Atomic Action Slicing(AAS)은 기존 VLA 모델이 장기 시연을 그대로 학습할 때 발생하는 일반화 한계를 극복하기 위해, 시연을 “원자 행동”이라는 최소 단위로 분할한다는 근본적인 아이디어에 기반한다. 여기서 원자 행동은 (1) 명확히 정의된 행동 타입(예: grasp, move, place 등), (2) 시작·종료 시점이라는 시간적 구간, (3) 모델이 예측한 신뢰도(confidence)라는 세 가지 메타데이터를 포함한다. 이러한 구조는 두 가지 주요 장점을 제공한다. 첫째, 플래너가 요구하는 “옵션(option)” 형태와 직접적으로 매핑되므로, 플래너가 고수준 목표를 하위 행동으로 자동 분해할 때 AAS가 제공하는 원자 행동을 그대로 삽입할 수 있다. 둘째, 정책 학습 입장에서는 짧고 구체적인 시퀀스를 학습함으로써 샘플 효율성이 크게 향상된다.

데이터 구축 과정에서 저자들은 LIBERO 시연을 자동으로 전처리하고, Gemini 2.5 Pro를 활용해 초기 세그먼트를 생성한 뒤 인간 검증자를 통해 라벨을 정제하였다. 결과적으로 2,124개의 고품질 원자 세그먼트가 확보되었으며, 각 세그먼트는 행동 타입, 시간 구간, confidence 점수로 구성된 GATE‑VLAP 데이터셋에 공개된다. 중요한 점은 Gemini 2.5 Pro가 플래너가 설계한 “ideal plan”과 92% 이상의 IoU를 달성했으며, 키프레임 위치에 ±5프레임 정도의 jitter가 가해져도 성능 저하가 미미했다는 것이다. 이는 원자 행동이 시각적 변동성에 강인함을 의미한다.

모델 측면에서는 CLIP‑RT+를 AAS 데이터로 추가 미세조정(fine‑tuning)하였다. 기존 CLIP‑RT+는 전체 시연을 그대로 학습했을 때 LIBERO‑Goal에서 94.2%, LIBERO‑Long에서 83.8%의 성공률을 보였지만, AAS 기반 미세조정 후 각각 95.3%와 88.8%로 상승했다. 특히 복수 객체를 다루는 장기 작업(LIBERO‑Long)에서 5% 이상의 절대적 향상이 관찰되었으며, 이는 원자 행동이 복합 상호작용을 보다 명확히 구분해 학습에 기여했음을 시사한다.

또한 저자들은 소형 모델(예: ViT‑B/16 기반)과 대형 모델(Gemini 2.5 Pro) 간 성능 격차를 분석했다. 소형 모델은 다중 객체 시나리오에서 세그먼트 정확도가 현저히 낮아 플래너와의 정합성이 떨어졌으며, 결과적으로 전체 파이프라인 성공률이 감소했다. 이는 원자 행동을 효과적으로 활용하려면 충분한 표현력을 갖춘 모델이 필요함을 암시한다.

전체적으로 AAS는 VLA 연구에서 “시연 → 계획 → 실행” 사이의 격차를 메우는 연결 고리 역할을 수행한다. 플래너가 요구하는 옵션 형태와 정책이 학습하기 쉬운 원자 행동을 일치시킴으로써, 기존 VLA 모델이 겪던 일반화 문제를 데이터와 구조적 설계 차원에서 동시에 해결한다는 점이 가장 큰 공헌이다.