뇌에서의 벡터 양자화 격자형 코드와 세계 모델
초록
본 논문은 연속적인 attractor 신경망을 이용해 격자형 활동 패턴을 코드북으로 만든 뒤, 행동에 따라 동적으로 전환되는 코드북으로 관찰‑행동 시퀀스를 압축하는 Grid‑like Code Quantization(GCQ) 방법을 제안한다. 공간과 시간을 동시에 양자화함으로써 장기 예측, 목표 지향 계획, 역모델링을 지원하고, 신경과학적 격자 세포 형성 메커니즘에 대한 새로운 이론적 시각을 제공한다.
상세 분석
GCQ는 기존 VQ‑VAE가 정적인 입력을 고정된 코드북에 매핑하는 방식을 확장한다. 핵심 아이디어는 연속적 attractor neural network(CANN)를 이용해 2차원 토러스 위에 주기적인 ‘버 bump’ 형태의 안정 상태를 생성하고, 각 버를 하나의 코드워드로 정의하는 것이다. CANN의 연결 가중치는 거리‑의존적인 가우시안 형태이며, 주기적 경계조건 덕분에 버가 격자형 패턴을 이루어 자연스럽게 격자 세포와 유사한 토폴로지를 만든다.
행동‑조건부 코드북은 행동 벡터가 CANN에 적용될 때 버가 특정 방향으로 이동하도록 설계된다. 논문에서는 θ와 φ 축을 기준으로 ±Δθ, ±Δφ 이동을 정의하고, 이를 5가지 기본 행동(정지 포함)으로 확장한다. 따라서 하나의 CANN이 지원하는 행동 조합은 최대 5가지이며, m개의 병렬 CANN을 사용하면 행동 공간의 크기가 5^m까지 확장된다. 이 구조는 행동에 따라 코드북이 동적으로 변한다는 점에서 기존 정적 코드북과 근본적으로 다르다.
시퀀스 양자화 과정은 다음과 같다. 관찰 시퀀스 o₁:n을 인코더가 연속 잠재 시퀀스 s₁:n으로 변환하고, 각 잠재 시퀀스 sʲ₁:n을 해당 CANN에 적용된 행동 aʲ₁:n‑1에 따라 생성된 K개의 후보 궤적(eᵢ⊕aʲ₁:n‑1)과 L2 거리로 비교한다. 가장 작은 거리를 보이는 후보의 인덱스 kʲ를 선택해 최종 양자화된 시퀀스 ˆsʲ₁:n = e_{kʲ}⊕aʲ₁:n‑1을 만든다. 손실 함수는 재구성 손실과 커밋먼트 손실을 합한 형태이며, STE(직통 추정기)를 사용해 이산 양자화 단계에서도 역전파가 가능하도록 한다.
GCQ의 장점은 세 가지 주요 기능에 있다. 첫째, 공간‑시간을 동시에 압축함으로써 별도의 시공간 모델을 결합할 필요가 없어 계산 효율성이 높다. 둘째, 양자화된 코드가 격자형 토폴로지를 가지므로 목표 지점까지의 최단 경로 탐색이 그래프 탐색 수준으로 단순화되어 계획이 빠르게 수행된다. 셋째, 역모델링이 가능하도록 행동‑코드 변환을 양방향으로 정의함으로써 관찰을 통해 행동을 추정하거나, 목표 관찰을 입력해 필요한 행동 시퀀스를 역으로 생성할 수 있다.
실험에서는 로봇 내비게이션, 비디오 예측, 연속 제어 등 다양한 도메인에서 GCQ가 기존 VQ‑VAE 기반 세계 모델보다 압축률과 다운스트림 성능 모두에서 우수함을 보였다. 특히 장기 예측 시 누적 오류가 감소하고, 목표 지점 도달을 위한 플래닝 단계에서 탐색 비용이 크게 줄어든다. 마지막으로, 격자 세포가 연속적인 attractor 동역학에서 자연스럽게 발생한다는 신경과학적 해석을 제시함으로써, 뇌가 어떻게 고차원 연속 정보를 효율적인 이산 토큰으로 변환하는지에 대한 가설을 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기