상태 유지형 선형 트랜스포머로 장기 기억 강화된 내비게이션
초록
**
StateLinFormer는 선형‑attention 구조에 상태 유지 학습을 도입해 배치 경계에서 메모리를 초기화하지 않는다. 이를 통해 무한에 가까운 시퀀스를 학습한 것과 같은 효과를 얻어, MAZE와 ProcTHOR 환경에서 장기 기억과 인‑컨텍스트 학습(ICL) 능력이 크게 향상됨을 실험적으로 입증한다.
**
상세 분석
**
본 논문은 내비게이션 에이전트가 장시간 상호작용 동안 축적한 경험을 지속적으로 활용할 수 있도록, 선형‑attention 기반 모델에 ‘stateful training’이라는 새로운 최적화 프로토콜을 적용한다. 기존 Transformer 기반 내비게이션 모델은 고정된 컨텍스트 윈도우와 배치마다 메모리를 0으로 초기화하는 stateless 학습 방식 때문에, 긴 시퀀스에서의 장기 의존성을 충분히 학습하지 못한다. StateLinFormer는 메모리 상태 Mₜ를 배치 경계에서 그대로 이어받아, 실제 배포 시와 동일한 연속적인 상태 분포 하에서 파라미터를 업데이트한다. 이 접근법은 두 가지 중요한 효과를 만든다. 첫째, 모델이 ‘무한히 긴’ 시퀀스를 학습한 것과 유사한 상태 분포 dθ에 노출되어, 장기 기억을 유지하는 메커니즘이 파라미터 수준에서 최적화된다. 둘째, 메모리 상태가 지속되면서 학습 신호의 변동성이 증가하고, 이는 최근 연구에서 ICL(인‑컨텍스트 학습) 행동을 촉진하는 요인으로 알려져 있다. 논문은 이를 정량적으로 검증하기 위해 두 가지 환경을 사용한다. 15×15 격자형 MAZE는 부분 관측과 높은 불확실성을 제공해 전통적인 모델이 쉽게 망각하는 상황을 만든다. ProcTHOR는 실제와 유사한 3D 시각 입력을 제공해 복합적인 시각‑언어 통합 능력을 요구한다. 실험 결과, 동일한 아키텍처와 파라미터 수를 가진 stateless 선형‑attention 모델에 비해 StateLinFormer는 성공률, SPL(Shortest Path Length), 그리고 장기 목표 반복 수행 능력에서 현저히 높은 점수를 기록한다. 특히, CON(Continual Object Navigation) 벤치마크에서 에피소드가 연속될수록 성능 격차가 확대되며, 이는 상태 유지 학습이 ‘지속적 적응’이라는 측면에서 큰 장점을 제공함을 시사한다. 또한, Transformer 기반 베이스라인(고정 컨텍스트 윈도우)과 비교했을 때, StateLinFormer는 메모리 복잡도 O(1)·시간 복잡도 O(1)인 선형‑attention의 효율성을 유지하면서도 장기 기억 측면에서는 전통적인 self‑attention보다 우수한 결과를 보여준다. 논문은 또한 메모리 업데이트 식 Mₜ = Mₜ₋₁ + φ(kₜ)vₜᵀ와 hₜ = φ(qₜ)ᵀMₜ를 그대로 사용하되, 학습 단계에서만 초기화 여부를 달리함으로써 구현상의 복잡성을 최소화한다는 점을 강조한다. 마지막으로, 상태 유지 학습이 ergodic한 메모리 상태 분포를 형성한다는 이론적 논의를 통해, 장기적인 배포 환경에서 모델이 ‘자기‑생성’ 메모리 흐름에 적응하도록 설계된 점을 학문적으로 뒷받침한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기