잊지 않는 라우팅으로 지속 학습하기
초록
본 논문은 온라인 지속 학습(Online Continual Learning) 환경에서 사전 학습된 Vision Transformer에 작업별 프롬프트나 어댑터를 추가하는 전통적인 파라미터 효율적 방법의 한계를 지적하고, 에너지 기반 연관 기억(Hopfild Network)을 활용한 동적 라우팅 레이어를 도입한다. 제안된 RwF(Routing without Forgetting) 구조는 각 트랜스포머 레이어에서 입력 토큰을 기반으로 단일 단계 연관 검색을 수행해 동적으로 프롬프트를 생성하고, 이를 기존 토큰과 결합해 자기‑주의 연산에 투입한다. 라우팅은 엄격히 볼록한 자유 에너지 함수를 최소화하는 형태로 닫힌 해를 갖으며, 파라미터 업데이트와는 독립적으로 즉시 입력에 맞춰 재구성된다. 실험 결과, Split‑ImageNet‑R·S와 같은 대규모 클래스‑증분 벤치마크에서 기존 프롬프트·LoRA 기반 방법들을 크게 앞섰으며, 파라미터 증가율은 2.1% 수준에 불과하다.
상세 분석
본 연구는 온라인 지속 학습에서 “즉시 라우팅”이라는 새로운 패러다임을 제시한다. 기존 프롬프트, 어댑터, LoRA 등은 작업별 파라미터를 점진적으로 학습시켜 특정 작업에 특화된 서브스페이스를 형성한다. 그러나 온라인 설정에서는 각 샘플이 한 번만 제공되므로 파라미터가 충분히 수렴하기 전에 데이터 분포가 변한다. 이때문에 파라미터 기반 라우팅은 플라스틱성과 스테빌리티 사이의 균형을 맞추기 어렵다.
RwF는 이러한 문제를 구조적 차원에서 해결한다. 핵심 아이디어는 Modern Hopfield Network가 제시한 에너지 기반 연관 기억을 트랜스포머 레이어에 삽입해, 입력 토큰 자체를 “키‑값” 쌍으로 사용해 작은 프롬프트 집합을 동적으로 생성하는 것이다. 구체적으로, 레이어 ℓ의 입력 토큰 행렬 Zℓ에 대해 고정된 질의 행렬 Qℓ을 선형 변환한 뒤, softmax(β·Q̃Kᵀ) 형태의 라우팅 행렬 Aℓ을 계산한다. 여기서 β는 온도 파라미터이며, Aℓ은 각 질의가 입력 토큰에 할당되는 확률 분포를 나타낸다. 이후 Vℓ와의 행렬 곱을 통해 프롬프트 Pℓ = AℓVℓ을 얻고, 이를 원본 토큰과 결합해 자기‑주의 연산에 투입한다.
수학적으로 이 과정은 자유 에너지 함수
F(p; q) = –∑ᵢ pᵢ⟨q̃, kᵢ⟩ + β⁻¹H(p)
의 최소화와 동등하다. 첫 번째 항은 입력과 토큰 간의 유사성을 최대화해 플라스틱성을 제공하고, 두 번째 항은 엔트로피 항으로 라우팅을 부드럽게 만들어 급격한 변화를 억제한다. 엔트로피 항이 엄격히 볼록하기 때문에 전역 최소점이 유일하며, softmax 형태로 닫힌 해를 갖는다. 따라서 라우팅은 파라미터 업데이트와 무관하게 매 포워드 패스마다 즉시 재계산된다.
이 구조는 두 가지 중요한 장점을 제공한다. 첫째, 라우팅이 입력에 연속적으로 의존하므로 작은 피처 변동이 라우팅 가중치에 비례적으로 반영된다(Lipschitz 연속성). 이는 온라인 환경에서 급격한 표현 전이로 인한 재앙적 망각을 완화한다. 둘째, 프롬프트 Pℓ은 매 단계 새롭게 생성되고, 사용 후 버려지기 때문에 작업별 프롬프트를 저장하거나 누적할 필요가 없다. 즉, 메모리 오버헤드가 거의 없으며, 파라미터 증가율도 2% 수준에 머문다.
실험에서는 Split‑CIFAR‑100, Split‑ImageNet‑R, Split‑ImageNet‑S 등 클래스‑증분 시나리오를 사용했다. 특히 대규모 ImageNet 변형에서 RwF는 최종 평균 정확도 74.09% (R)와 61.37% (S)를 기록했으며, 이는 기존 프롬프트·LoRA 기반 방법들을 크게 앞선 수치다. 또한 샘플 수가 감소하는 few‑shot 설정과 작업 수가 5에서 40까지 늘어나는 경우에도 성능 저하가 완만했다. Ablation 실험에서는 라우팅 레이어를 초기 블록에 삽입했을 때 가장 큰 효과가 나타났으며, 라우팅 깊이를 조절하면 플라스틱성·스테빌리티 트레이드오프를 세밀하게 조정할 수 있음을 보였다.
요약하면, RwF는 “에너지 기반 연관 라우팅”이라는 새로운 구조적 메커니즘을 통해 온라인 지속 학습에서 파라미터 기반 적응의 한계를 극복하고, 빠른 입력‑조건부 재구성을 가능하게 한다. 이는 기존의 작업‑특화 파라미터 저장 방식과는 근본적으로 다른 접근법이며, 트랜스포머 기반 비전 모델을 온라인 환경에 적용하는 데 있어 실용적이고 이론적으로도 견고한 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기