재귀 깊이 기반 비전‑언어‑액션 모델로 테스트 시 연산 가변성 구현

재귀 깊이 기반 비전‑언어‑액션 모델로 테스트 시 연산 가변성 구현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RD‑VLA는 가중치를 공유하는 재귀 액션 헤드를 도입해, 토큰을 생성하지 않고 잠재 공간에서 반복적인 정제 과정을 수행한다. 이를 통해 메모리 사용량은 일정하게 유지하면서 테스트 시 연산 깊이를 동적으로 조절한다. 실험 결과, 복잡한 조작 작업은 단일 반복에서는 0% 성공률이었지만 4회 반복에서는 90% 이상으로 향상되었으며, 기존 토큰 기반 추론 모델 대비 최대 80배 빠른 추론 속도를 달성했다.

상세 분석

RD‑VLA는 기존 Vision‑Language‑Action(VLA) 모델이 고정된 연산 깊이로 모든 상황에 동일한 계산량을 할당하는 한계를 극복한다는 점에서 혁신적이다. 핵심 설계는 세 단계로 구성된 액션 헤드이다. 먼저 Prelude 단계에서는 64개의 학습된 잠재 토큰이 중간 레이어 시각 특징과 교차‑어텐션을 통해 초기 잠재 기반을 만든다. 이때 생성된 S_pre은 모든 반복에서 고정된 컨디션으로 작용한다. 두 번째인 Recurrent Core는 가중치를 공유하는 트랜스포머 블록을 K번(또는 동적으로 결정된 r번) 반복 적용한다. 각 반복에서는 이전 스크래치패드 S_{k‑1}와 고정된 S_pre을 연결(concatenate)하고, 어댑터와 RMSNorm을 거쳐 x_k를 만든 뒤, x_k와 최종 레이어 시각 토큰, 프로프리오셉션 p를 결합한 조건 맵에 게이트형 교차‑어텐션을 수행한다. 이 구조는 “입력 주입(Input Injection)” 전략을 통해 장기 반복 시 표현 붕괴를 방지하고, 연산 깊이가 늘어날수록 점진적으로 정제된 잠재 상태를 유지한다. 마지막 Coda 단계에서는 수렴된 S_r을 비선형 디코더를 통해 연속적인 로봇 액션(예: 6‑DoF 그리퍼 명령)으로 변환한다.

학습 측면에서는 TBPTT(Truncated Back‑Propagation Through Time)를 활용해 제한된 단계만 역전파함으로써 메모리 효율성을 확보한다. 또한, “불확실성 기반 적응 정지 기준”을 도입해, 잠재 상태 간 코사인 거리 혹은 KL 발산이 사전 정의된 임계값 이하가 되면 반복을 중단한다. 이는 복잡한 조작 단계에서는 더 많은 반복을, 간단한 움직임에서는 최소 반복만 수행하도록 자동으로 조정한다.

실험에서는 LIBERO‑10, CALVIN 등 복합 조작 벤치마크를 사용했으며, 고정 8회 반복 시 93.0% 성공률, 적응형 정지 시 92.5%를 기록했다. 특히, 단일 반복으로는 0% 성공이던 복잡 작업이 4회 반복에서 90% 이상 성공하는 현상은 “재귀 깊이”가 문제 난이도에 따라 자연스럽게 늘어나는 것을 입증한다. 또한, 토큰 기반 CoT 모델이 메모리와 시간에서 선형적으로 비용이 증가하는 반면, RD‑VLA는 메모리 사용량이 고정이고, 반복당 연산량이 동일하므로 전체 추론 속도가 최대 80배까지 가속된다.

한계점으로는 초기 스크래치패드의 잡음 분포와 반복 횟수 상한이 모델 성능에 미치는 영향이 아직 완전히 규명되지 않았으며, 실제 로봇 시스템에 적용할 때 실시간 제어 주기와 하드웨어 제한을 고려한 최적의 정지 기준 설계가 필요하다. 향후 연구에서는 다중 로봇 협업 시 재귀 깊이를 공유하거나, 메타‑러닝을 통해 정지 기준을 자동 튜닝하는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기