연속학습을 위한 제어 최소화와 지속적 자연기울기
초록
이 논문은 연속학습을 제어 문제로 재구성한다. 기존 정규화 방식의 패널티를 ‘보존 신호’로 변환해 신경 활동에 삽입하고, 학습 신호와 보존 신호가 경쟁하도록 설계한다. 네트워크가 평형에 도달하면 가중치 업데이트가 이전 과제의 전체 피셔 곡률을 암묵적으로 인코딩하게 되며, 이를 ‘지속적 자연기울기(continual‑natural gradient)’라 명명한다. 실험 결과, 실제 곡률을 복원하고 작업 구분 능력을 향상시켜 재생 없이도 기존 방법들을 능가한다.
상세 분석
본 연구는 연속학습에서 발생하는 재앙적 망각을 ‘제어 최소화’라는 새로운 프레임워크로 접근한다. 핵심 아이디어는 기존 파라미터 기반 정규화(R(θ))를 신경 활동에 직접 작용하는 보존 신호(γ)로 변환하는 것이다. 구체적으로, 각 뉴런 k의 보존 신호는 사전 과제 A에 대한 피셔 대각 행렬(F_DA,k)과 현재 프리시냅스 활동 ϕ_k를 내적한 형태 γ_k = β·ϕ_kᵀ·F_DA,k·(θ_k−θ*_A,k) 로 정의된다. 이는 이전 과제에 중요한 시냅스가 현재 입력에 활성화될 때만 비용을 부과함을 의미한다.
다음으로 네트워크 동역학을 τ·ẋ = −ϕ + e·ψ + γ⊙f(ϕ,θ) 로 설정한다. 여기서 ψ는 손실을 최소화하려는 학습 신호, γ는 위에서 정의한 보존 신호이며, ⊙는 원소별 곱이다. 학습 신호와 보존 신호가 동일한 뉴런에 동시에 작용함으로써, 보존이 강한 뉴런은 학습 신호가 이를 극복하기 위해 더 큰 제어 노력을 필요로 한다. 이는 기존 정규화가 파라미터 수준에서 일괄적으로 패널티를 부과하는 것과 달리, 활동 수준에서 동적으로 비용을 할당한다는 점에서 근본적인 차이를 만든다.
학습 목표는 “최소 제어 노력”을 찾는 것으로, 최소 ‖ψ‖₂ 를 만족하면서 평형 ϕ와 손실 최소 조건 ∇_ϕ L(ϕ)=0 을 동시에 만족하도록 한다. 최적 ψ를 구한 뒤, 파라미터는 θ ← θ − η·∇_θ H(θ) (H(θ)=‖ψ(θ)‖₂²) 로 업데이트된다. 이 과정에서 네트워크 동역학 자체가 이전 과제의 전체 피셔 정보를 암묵적으로 생성한다. 저자들은 이를 ‘지속적 자연기울기’라 부으며, 정리 3.1에 따르면 작은 학습률 η와 선형화 가정 하에 Δθ ≈ −η·˜F_A⁻¹·∇_θ L_B, 여기서 ˜F_A는 네트워크 동역학을 통해 얻어진 이전 과제의 전체 피셔 근사치이다. 즉, 대각 피셔만 저장해도 전체 곡률을 복원할 수 있다.
또한 클래스‑증분 학습 상황에서, 기존 정규화는 샘플별 간섭 항 G_{A←B}를 완전히 제거하지 못한다. 반면 EFC는 보존 신호가 V_A(이전 과제 피셔의 열공간) 방향에 큰 비용을 부과하므로, 학습 신호 ψ*는 V_A에 직교하는 방향으로만 효율적으로 움직인다. 정리 3.2는 Δθ_EFC ∝ ˜F_A⁻¹·G_⊥B + O(˜λ_min⁻¹) 로, V_A에 속하는 성분은 ˜λ_min⁻¹ 만큼 억제되고, 직교 성분은 거의 그대로 전달된다고 증명한다. 따라서 작업 구분 능력이 크게 향상된다.
실험에서는 MNIST‑Permutation, CIFAR‑100 Split 등 표준 연속학습 벤치마크에서 재생 없이 EFC가 EWC, SI, MAS 등 기존 정규화 기반 방법들을 앞선다. 특히, ˜F_A가 실제 피셔와 높은 상관관계를 보이며, 작업 전환 시 손실 감소와 정확도 유지가 눈에 띈다.
요약하면, 이 논문은 (1) 정규화 패널티를 활동 기반 보존 신호로 변환, (2) 학습·보존 신호가 경쟁하는 동역학을 설계, (3) 평형에서 전체 피셔를 암묵적으로 인코딩하는 ‘지속적 자연기울기’를 도출, (4) 이론적으로 곡률 기반 필터링과 작업 구분을 보장, (5) 실험적으로 재생 없이도 기존 최첨단 방법을 능가한다는 점에서 연속학습 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기