연속 딥러닝을 위한 저랭크 필터링과 스무딩
초록
본 논문은 신경망 파라미터를 비선형 가우시안 상태공간 모델의 상태로 간주하고, 라플라스 근사와 대각선+저랭크 정밀도 행렬을 이용한 효율적인 필터링·스무딩 기법(LR‑LGF)을 제안한다. 이를 통해 작업 간 관계에 대한 사전 지식을 명시적으로 인코딩하고, 이후에 학습된 작업의 정보를 이전 작업에 역전파하는 베이지안 스무딩을 구현한다. 실험은 제안 방법이 연속 학습에서 기억 유지와 적응성 사이의 균형을 개선함을 보여준다.
상세 분석
이 논문은 연속(continual) 딥러닝에서 발생하는 ‘망각’과 ‘플라스티시티 손실’ 문제를 베이지안 상태공간 모델로 재구성한다. 핵심 아이디어는 네트워크 가중치를 시계열 상태 θₜ 로 보고, 각 작업 t에 대해 선형 가우시안 전이 p(θₜ₊₁|θₜ)=𝒩(θₜ₊₁;θₜ,Q)와 비정규화된 로그우도 p(Dₜ|θₜ)∝exp(−λL(θₜ,Dₜ))를 정의하는 것이다. 여기서 Q는 작업 간 파라미터 변동을 제어하는 프로세스 노이즈 공분산이며, 도메인 지식(예: 상위 레이어만 변한다)을 대각선 형태 혹은 블록 구조로 Q에 반영할 수 있다.
필터링 단계에서는 기존 작업의 라플라스 근사(posterior≈𝒩(θ;θ̂ₜ₋₁, Cₜ₋₁))를 사전으로 사용해 현재 작업을 정규화된 손실 L_reg(θ)=L(θ,Dₜ)+½(θ−θ̂ₜ₋₁)ᵀCₜ₋₁⁻¹(θ−θ̂ₜ₋₁) 로 변환한다. 최적화 후 얻은 MAP θ̂ₜ와 GGN(Generalized Gauss‑Newton) 행렬을 이용해 새로운 정밀도 Pₜ=Cₜ⁻¹를 업데이트한다. 하지만 직접적인 정밀도·공분산 저장은 파라미터 수 D에 비해 비현실적이므로, 저자들은 정밀도를 “대각선 + 저랭크” 형태 Dₜ+UₜΣₜUₜᵀ 로 근사한다. 이 구조는 (i) 저장 비용 O(D+DK+k²) 로 크게 감소하고, (ii) 행·벡터 연산을 O(Dk+k²) 로 가속한다는 장점을 가진다.
예측 단계에서는 Woodbury 항등식을 두 번 적용해 Q와 기존 대각선+저랭크 정밀도를 합산한 새로운 대각선+저랭크 형태를 얻는다. 업데이트 단계에서는 GGN을 저랭크 근사(미니배치별 Jacobian와 출력 Hessian의 곱)하고, 이를 기존 저랭크 정밀도에 추가한다. 랭크가 증가하면 SVD truncation을 통해 다시 k 차원으로 압축한다. 이렇게 하면 필터링 전체가 순환적으로 대각선+저랭크 형태를 유지하면서 진행된다.
스무딩 단계는 Rauch‑Tung‑Striebel 스무딩 공식에 기반한다. 필터링된 평균 mₜ와 정밀도 Pₜ를 이용해 역방향으로 스무딩 이득 Gₜ=Cₜ(Cₜ+Q)⁻¹ 를 계산하고, mₛₜ, Cₛₜ 를 업데이트한다. 정밀도 형태가 동일하게 유지되므로 스무딩 역시 O(Dk+k²) 비용으로 수행된다. 중요한 점은 스무딩이 “데이터 접근 없이” 이전 작업의 파라미터를 최신 작업 정보로 재조정한다는 것이다. 이는 프라이버시‑중요 환경이나 데이터 저장이 금지된 상황에 큰 의미가 있다.
실험에서는 (1) 저랭크 근사가 전체 라플라스 근사와 거의 동일한 성능을 보이며, (2) 프로세스 노이즈 Q에 레이어‑별 스케일을 지정해 특정 레이어만 변하도록 유도했을 때, 작업 간 전이 효율이 크게 향상됨을 확인한다. 또한 스무딩을 적용하면 초기 작업의 정확도가 평균 2~4% 상승하고, 전체 평균 손실도 감소한다. 이러한 결과는 제안된 LR‑LGF가 연속 학습에서 기억 유지와 적응성 사이의 트레이드‑오프를 효과적으로 관리한다는 것을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기