위상인식 토큰화 SOMVQ
SOM‑VQ는 벡터 양자화와 자기조직화 지도(SOM)를 결합해 2차원 격자 형태의 토큰 공간을 학습한다. 격자상의 인접 토큰은 의미적으로 유사하도록 배치되며, 이를 통해 인간이 직접 토큰 거리만 조작해 움직임 생성 등을 직관적으로 제어할 수 있다. 실험은 혼돈 시스템(Lorenz)과 인간 동작 데이터(AIST++)에서 수행했으며, 기존 VQ‑VAE 대비 시퀀스 퍼플렉시티가 낮고 토큰 구조가 명확히 정렬되는 것을 확인했다.
저자: Aless, ro Londei, Denise Lanzieri
본 논문은 벡터 양자화(VQ)와 자기조직화 지도(SOM)를 결합한 새로운 토큰화 기법인 SOM‑VQ를 제안한다. 기존 VQ‑VAE는 연속적인 잠재 공간을 이산 토큰으로 양자화하지만, 토큰 간 관계가 전혀 정의되지 않아 인간이 의미 기반으로 제어하기 어렵다. 이를 해결하기 위해 저차원 2차원 격자 위에 코드북을 배치하고, SOM의 이웃 업데이트를 도입해 토큰 간 위상적 유사성을 강제한다.
구조는 크게 세 부분으로 이루어진다. (1) 인코더가 입력 x를 연속 잠재 zₑ로 매핑하고, (2) 가장 가까운 코드북 원소 eₖ를 BMU로 선택해 토큰 z_q를 생성한다. (3) 디코더가 z_q를 이용해 x̂를 복원한다. 학습 손실은 재구성 손실과 커밋먼트 손실의 합이며, 코드북은 두 단계 업데이트로 최적화한다. 첫 단계에서는 SOM의 가우시안 이웃 함수 h(d)와 학습률 η를 사용해 모든 코드북 원소를 BMU와의 격자 거리 d에 비례해 이동시켜 격자 구조를 유지한다. 두 번째 단계에서는 VQ‑VAE와 동일한 EMA 방식으로 BMU에만 전용 커밋먼트 업데이트를 적용해 토큰이 실제 데이터 분포를 잘 추적하도록 한다. 이 과정은 토큰의 정체성을 보존하면서도 격자 위상은 손상되지 않게 만든다.
실험은 두 가지 상이한 도메인에서 수행되었다. 첫 번째는 3차원 혼돈 시스템인 Lorenz attractor이며, 두 번째는 51차원 인간 동작 캡처 데이터셋 AIST++이다. 모든 방법은 32 × 32(총 1024개) 격자를 사용했으며, 비교 대상은 기존 VQ, VQ‑VAE, 그리고 SOM‑hard(순수 SOM, VQ 커밋 없음)이다. 평가 지표는 (1) 토큰 시퀀스의 학습 난이지를 나타내는 시퀀스 퍼플렉시티(Seq‑PPL), (2) 위상 보존 정도를 측정하는 trustworthiness, continuity, distortion, (3) 재구성 오차(MSE), (4) 코드북 활용률이다.
결과는 다음과 같다. SOM‑VQ는 두 도메인 모두에서 가장 낮은 Seq‑PPL을 기록했으며, 이는 토큰 시퀀스가 보다 구조화되어 자동 회귀 모델이 학습하기 쉬워졌음을 의미한다. 위상 지표에서도 trust/cont≈0.94–0.99로 거의 완벽한 이웃 보존을 보였으며, distortion 측면에서도 격자 구조가 유지된 것을 확인했다. 반면 VQ‑VAE는 위상 구조가 전혀 없고, SOM‑hard는 위상은 좋지만 토큰이 이산화되지 않아 생성에 사용할 수 없었다. 코드 활용률은 SOM‑VQ가 71%(Lorenz)·61%(AIST++)로 다소 낮았지만, 이는 저밀도 영역에 빈 격자를 남겨 데이터 매니폴드의 구조를 반영한 결과이며, 무조건적인 균등 커버보다 의미 있는 토큰 배분을 의미한다.
스케일링 실험에서는 격자 크기를 늘릴 경우 Lorenz에서는 지속적인 성능 향상이 나타났지만, AIST++에서는 32 × 32에서 포화 현상이 관찰돼 약 600–700개의 코드가 최적임을 시사한다. 이는 데이터 복잡도에 맞는 격자 크기 선택이 필요함을 보여준다.
인간‑인‑루프 제어 실험에서는 학습된 32 × 32 토크나이저와 LSTM 토큰 시퀀스 모델을 이용해, 사용자가 “참조와 멀어지기” 혹은 “참조에 가까워지기”라는 거리 기반 의도를 제시하면 모델이 격자 거리 ‖c_model−c_human‖에 따라 샘플링을 편향시켰다. 실험 결과, 격자 거리와 프로토타입 MSE가 의도대로 상승·하강했으며, 실제 생성된 자세도 점진적으로 변형·복귀하는 모습을 보였다. 이는 토큰 위상이 실제 동작 제어와 직접 연결될 수 있음을 증명한다.
논문의 한계로는 (1) 현재는 동작과 혼돈 시스템에만 검증했으며, 이미지·오디오 등 다른 모달리티에 대한 일반화가 미흡하다, (2) VQ‑VAE와의 비교에서 네트워크 용량·데드코드 리셋 등 부수적인 차이가 존재해 완전한 공정 비교가 필요하다, (3) 인간‑인‑루프 실험이 정량적 시뮬레이션에 머물러 있어 실제 사용자 연구와 인터페이스 설계가 요구된다.
결론적으로, SOM‑VQ는 토큰 공간에 명시적인 저차원 위상을 부여함으로써 “거리 기반” 직관적 제어를 가능하게 하고, 기존 VQ‑VAE 대비 시퀀스 학습 효율성을 높이며, 토큰 자체가 데이터의 의미적 연속성을 반영하도록 만든다. 이는 생성 모델을 인간과 실시간으로 협업하게 하는 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기