세계 모델의 기억 메커니즘 비교와 장기 계획 향상

초록

본 논문은 트랜스포머 기반 세계 모델의 기억 한계를 분석하고, 기억 인코딩과 주입 메커니즘을 구분한 새로운 분류 체계를 제시한다. 상태 회상 평가를 통해 각 메커니즘의 기억 지속 시간과 비용을 측정하고, 비전 트랜스포머에 적용했을 때 장기 롤아웃에서의 퍼셉추얼 드리프트 감소와 루프 클로저 수행 가능성을 입증한다.

상세 분석

이 연구는 세계 모델이 미래 상태를 예측하고 가상 환경에서 계획을 수립하는 과정에서, 백본 아키텍처가 보유할 수 있는 “효과적 기억 길이(effective memory span)”가 핵심 제한 요소임을 명확히 한다. 특히 트랜스포머 기반 비전 모델은 입력 시퀀스 길이에 비례해 메모리 비용이 급증하므로, 긴 시계열을 직접 처리하기 어렵다. 이를 해결하기 위해 저자들은 기억 메커니즘을 두 축, 즉 ‘기억 인코딩(memory encoding)’과 ‘기억 주입(memory injection)’으로 구분하는 새로운 taxonomy를 제안한다. 기억 인코딩은 과거 관찰을 압축·요약해 저차원 표현으로 변환하는 단계이며, 기억 주입은 이러한 압축된 정보를 현재 잔차 스트림(residual stream)에 삽입해 모델이 과거 정보를 재활용하도록 만든다. 논문은 Residual Stream Dynamics라는 관점에서 두 메커니즘이 어떻게 상호작용하는지를 수식적으로 설명하고, 각 메커니즘이 기억 지속 시간에 미치는 영향을 실험적으로 검증한다. 상태 회상(state recall) 태스크에서는 기본 비전 트랜스포머가 10~15 프레임 이후 급격히 성능이 저하되는 반면, 기억 인코딩만 적용한 경우 약 30 프레임, 기억 주입을 병합한 경우 50 프레임 이상 안정적인 회상이 가능함을 보여준다. 또한 메모리 비용 측면에서 인코딩은 파라미터 증가가 미미하지만 연산량이 늘어나고, 주입은 추가적인 어텐션 레이어를 도입해 연산 복잡도가 상승한다는 트레이드오프를 제시한다. 최종적으로, 장기 롤아웃에서 발생하는 퍼셉추얼 드리프트를 감소시키고, 가상 경로 상에서 루프 클로저(같은 장소 재방문) 를 성공적으로 수행함으로써, 기억 메커니즘이 세계 모델의 장기 계획 능력을 실질적으로 확장한다는 결론에 도달한다.