순차적 행동 토큰화: OAT가 로봇 자동회귀 정책을 혁신한다

순차적 행동 토큰화: OAT가 로봇 자동회귀 정책을 혁신한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연속 로봇 행동을 고압축, 완전 복원 가능, 그리고 좌‑우 순차적 인과 구조를 동시에 만족하는 토큰화 방식인 Ordered Action Tokenization(OAT)을 제안한다. 트랜스포머 레지스터, 유한 스칼라 양자화(FSQ), 중첩 드롭아웃을 결합해 토큰 순서를 학습시키며, prefix‑based 디코딩을 통해 언제든 중간 토큰만으로도 실행 가능한 행동을 생성한다. 20여 개의 시뮬레이션·실제 작업에서 OAT 기반 자동회귀 정책이 기존 토큰화와 확산 기반 방법을 앞섰다.

상세 분석

OAT는 로봇 제어에서 연속적인 액션 시퀀스를 자동회귀 모델이 직접 다룰 수 있도록 하는 ‘행동 토큰화’ 문제를 새롭게 정의한다. 저자들은 기존 방법이 압축률(P.1), 완전 복원성(P.2), 인과적 순서성(P.3) 중 하나만 만족하거나 서로 상충한다는 점을 지적한다. 전통적인 per‑dimension binning은 완전 복원성을 제공하지만 토큰 수가 차원·시간에 비례해 급증해 압축률이 낮고 순서성이 결여된다. FAST와 같은 주파수‑도메인 방법은 고주파·저주파를 순차적으로 배치해 압축률과 순서성을 어느 정도 확보하지만, BPE 기반 가변 길이 시퀀스로 인해 디코더가 부분 함수가 되어 완전 복원성을 위배한다. 최근의 VQ‑VAE 기반 학습 토크나이저는 압축률과 복원성을 모두 달성하지만, 토큰 간 구조적 관계가 없어서 자동회귀 모델이 다음 토큰을 예측하기에 부적합하다.

OAT는 이러한 한계를 극복하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 입력 액션 청크와 함께 학습 가능한 레지스터 토큰 r₁…r_Hₗ을 연결해 트랜스포머 인코더가 시간적 정보를 요약하도록 한다. 레지스터는 ‘읽기‑쓰기 메모리’ 역할을 하며, 인코더의 인과적 어텐션을 통해 앞쪽 레지스터가 뒤쪽 레지스터보다 먼저 정보를 수집하도록 유도한다. 둘째, 레지스터 잠재 z₁…z_Hₗ에 유한 스칼라 양자화(FSQ)를 적용해 각 차원을 독립적인 정수 토큰으로 변환한다. FSQ는 양자화 단계가 명확히 정의된 전역 함수이므로 디코더가 언제든 입력 토큰 시퀀스를 받아 완전 복원 가능한 연속 액션을 출력한다. 셋째, ‘중첩 드롭아웃(nested dropout)’을 학습 단계에 삽입해 토큰 순서를 강제한다. 구체적으로, 확률 분포 p(K)에 따라 K번째 토큰 이후를 마스크 토큰으로 교체하고, 손실은 마스크된 부분을 제외한 앞쪽 토큰만으로 계산한다. 이 과정은 모델이 앞쪽 토큰에 더 많은 의미적 정보를 담도록 압력을 가해, K가 작을수록 거친 전역 형태를, K가 클수록 세밀한 디테일을 표현하도록 만든다.

결과적으로 OAT는 토큰 시퀀스 T₁…T_Hₗ이 ‘prefix‑decodable’한 특성을 갖는다. 즉, 정책이 토큰을 K개만 생성해도 T₁…T_K만으로 유효한 행동 청크를 복원할 수 있다. 이는 실시간 로봇 제어에서 연산량을 동적으로 조절하거나, 불확실성이 큰 상황에서 조기에 행동을 실행하는 ‘anytime’ 전략을 가능하게 한다. 실험에서는 4개의 시뮬레이션 벤치마크(예: Meta‑World, RoboSuite 등)와 실제 로봇 조작 6개 작업에 걸쳐 OAT 기반 자동회귀 정책이 기존 Bin, FAST, VQ‑VAE 기반 토크나이저 및 최신 확산·플로우 정책보다 평균 715% 높은 성공률을 기록했다. 특히 토큰 길이가 1/41/8 수준으로 감소하면서도 성능 저하가 거의 없었으며, 토큰 수를 늘릴수록 점진적으로 정밀도가 향상되는 모습을 시각화(그림 2)와 정량적 MSE 감소로 입증했다. 추가적인 ablation에서는 레지스터 없이 FSQ만 사용하거나 중첩 드롭아웃을 제거했을 때 순서성 손실과 디코딩 불안정성이 급격히 악화되는 것을 확인했다.

학술적 의의는 크게 세 가지이다. (1) 행동 토큰화의 필수 desiderata를 명확히 정의하고, 기존 방법들의 구조적 한계를 체계적으로 분석했다. (2) 트랜스포머 레지스터와 FSQ, 중첩 드롭아웃을 결합한 OAT 설계가 압축·복원·순서성을 동시에 만족함을 증명했다. (3) ‘prefix‑based anytime decoding’이라는 새로운 활용 방안을 제시해, 로봇 제어에서 연산‑정밀도 트레이드오프를 실시간으로 조정할 수 있는 길을 열었다. 향후 연구에서는 레지스터 수와 토큰 차원 Dₗ을 자동으로 최적화하거나, 멀티‑모달 관측(비전·언어)과 결합해 더 복잡한 행동 계획에 적용하는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기