신경탄젠트 커널 기반 파라미터 효율적 연속 학습
초록
본 논문은 사전학습 모델을 연속적인 과업에 적용할 때 파라미터 효율적 미세조정(PEFT‑CL)의 성능을 신경탄젠트 커널(NTK) 이론으로 분석한다. 학습 샘플 수, 과업 간 특징 직교성, 정규화가 일반화 격차에 미치는 영향을 정량화하고, 이를 토대로 샘플 표현을 3배로 확장하고 적응형 EMA와 직교성 제약을 적용하는 NTK‑CL 프레임워크를 제안한다. 실험 결과, NTK‑CL은 기존 PEFT‑CL 방법들을 크게 능가한다.
상세 분석
이 연구는 파라미터 효율적 미세조정(PEFT‑CL)이 사전학습된 대규모 모델을 연속적인 과업에 적용하면서 발생하는 ‘catastrophic forgetting’ 문제를 NTK 관점에서 체계적으로 풀어낸다. 먼저 저자들은 NTK가 무한 폭 신경망의 학습 역학을 선형 동역학으로 근사한다는 사실을 이용해, 테스트 시 발생하는 정확도 감소를 훈련 과정에서 측정 가능한 일반화 격차(generalization gap)로 전환한다. 이때 세 가지 핵심 요인이 일반화 격차를 결정한다는 것을 증명한다.
-
학습 샘플 수: 정리 1·2에서, 샘플 수가 증가할수록 NTK 행렬의 최소 고유값이 커져 학습이 더 안정되고, 과업 간 상호작용에 의한 일반화 격차가 감소한다는 수학적 경계가 제시된다. 이는 경험적으로도 “샘플을 3배 확장”하는 것이 NTK‑CL의 핵심 설계가 된 이유다.
-
과업 수준 특징 직교성: 정리 3·4는 서로 다른 과업의 특징 공간이 서로 직교에 가깝게 될수록, 즉 Φ_i와 Φ_j (i≠j)의 내적이 작을수록 inter‑task NTK 형태가 억제되고, 기억 손실이 최소화된다는 것을 보인다. 이를 위해 NTK‑CL은 학습 중에 task‑feature orthogonality 제약을 도입하고, cosine similarity 기반 프롬프트 선택 방식 대신 직접적인 특징 직교성을 최적화한다.
-
정규화: λ 라는 L2 정규화 파라미터가 NTK 역전파 과정에서 (Φ+λI)⁻¹ 형태로 등장함을 보이며, 적절한 λ 선택이 saddle‑point 해에 도달하도록 돕는다. NTK‑CL은 EMA(Exponential Moving Average) 메커니즘을 통해 파라미터 업데이트를 부드럽게 하면서, intra‑task NTK 형태를 보존한다.
이론적 분석을 바탕으로 제안된 NTK‑CL은 기존 PEFT‑CL이 사용하던 “추가 서브네트워크”나 “프롬프트 풀”을 완전히 배제한다. 대신, 하나의 공유 파라미터 집합 위에 과업‑특정 특징을 동적으로 생성하는 메커니즘을 구현한다. 구체적으로, 입력 x에 대해 세 개의 서로 다른 변환(예: linear projection, non‑linear 활성화, 재조합)을 적용해 3배 확장된 표현을 만든 뒤, 이 표현을 NTK‑guided loss와 orthogonality 제약에 동시에 최적화한다.
실험에서는 CLBench, Split‑CIFAR‑100, DomainNet 등 다양한 연속 학습 벤치마크에서 NTK‑CL이 평균 정확도와 포크 포인트(잊힘) 감소 측면에서 기존 S‑Prompt, L2P, Dual‑Prompt 등을 크게 앞선다. 특히, 파라미터 증가율이 0.5% 이하이면서도 3~5% 수준의 정확도 향상을 달성해, 파라미터 효율성과 성능 사이의 트레이드오프를 성공적으로 완화한다는 점이 주목할 만하다.
전체적으로 이 논문은 (1) PEFT‑CL의 핵심 문제를 NTK라는 강력한 수학적 도구로 정량화, (2) 이론적 인사이트를 직접 설계 원칙으로 전이, (3) 실험을 통해 이론‑실제 격차를 최소화하는 실용적인 프레임워크를 제시한다는 점에서 연속 학습 분야에 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기