연속학습을 위한 최적 가중치 MMD 기반 동적 표현 학습 프레임워크
초록
본 논문은 연속학습에서 발생하는 재앙적 망각을 완화하기 위해 최적 가중치 최대 평균 차이(MMD) 손실과 다층 특징 매칭 메커니즘(MLFMM)을 결합한 OWMMD 프레임워크를 제안한다. 또한 각 층의 중요도를 실시간으로 추정해 과도한 정규화(오버레귤러리제이션)를 방지하는 적응형 정규화 최적화(ARO) 전략을 도입한다. 실험 결과, 제안 방법은 기존 대표적인 재현, 지식 증류, 정규화 기반 방법들을 능가하며 최첨단 성능을 달성한다.
상세 분석
OWMMD는 연속학습에서 “표현 이동”을 직접 제어한다는 점에서 기존 방법과 차별화된다. 기존의 지식 증류는 주로 최종 로짓이나 출력 분포를 맞추는 데 초점을 맞추지만, OWMMD는 각 레이어의 특징 공간을 MMD 거리로 정량화한다. MMD는 커널 기반 비모수적 거리 측정으로, 두 분포의 평균 임베딩 차이를 직접 최소화한다. 여기서 “최적 가중치”라는 용어는 각 레이어별 MMD 손실에 가중치를 부여해, 중요한 레이어는 큰 패널티를, 덜 중요한 레이어는 작은 패널티를 적용하도록 설계된다.
MLFMM은 다중 레벨(다층) 특징 매칭을 구현한다. 구체적으로, 과거 작업에서 저장된 특징 평균 μ_k^t와 현재 작업에서의 특징 평균 μ_k^{t+1} (k는 레이어 인덱스) 사이의 MMD를 계산하고, 이를 전체 손실에 가중합한다. 이때 커널은 RBF를 사용해 비선형 관계를 포착한다. 결과적으로, 네트워크는 새로운 작업을 학습하면서도 각 레이어의 내부 표현이 급격히 변하는 것을 억제한다.
ARO는 “과도한 정규화” 문제를 해결한다. 기존 정규화 기반 방법(EWC, SI 등)은 파라미터 변화를 억제하지만, 레이어 전체에 동일한 강도로 적용하면 새로운 작업에 대한 학습 용량이 감소한다. ARO는 각 레이어의 중요도를 자동으로 추정한다. 중요도는 (1) 해당 레이어의 MMD 기여도, (2) 파라미터 Fisher 정보, (3) 최근 학습 단계에서의 그레이디언트 크기 등을 종합해 가중치 벡터 w_k를 만든다. 최종 정규화 손실은 Σ_k w_k·MMD_k 형태이며, w_k는 역전파 과정에서 동시에 업데이트된다. 이렇게 하면 핵심 레이어는 강하게 고정되고, 덜 중요한 레이어는 자유롭게 변형돼 새로운 작업에 적응한다.
실험에서는 CIFAR‑100, ImageNet‑Subset, Split‑MNIST 등 다양한 연속학습 벤치마크를 사용했다. OWMMD+ARO는 평균 정확도와 망각률 모두에서 ER, GEM, A‑GEM, DER, oEWC 등 최신 방법을 상회했다. 특히 메모리 제한이 심한 200샘플 이하 상황에서도 5~7%p 이상의 정확도 향상을 보였으며, 연산 비용은 MMD 계산을 위한 커널 매트릭스가 O(N^2)인 점을 제외하면 기존 정규화 기반 방법과 비슷한 수준이다.
한계점으로는 MMD 커널 선택에 따라 성능 변동이 크고, 대규모 데이터셋에서 커널 매트릭스 메모리 사용량이 증가한다는 점이다. 향후 연구에서는 랜덤 Fourier 특징을 이용한 근사 MMD 혹은 서브샘플링 전략을 적용해 메모리·시간 복잡도를 낮추는 방안을 모색할 수 있다. 또한 ARO의 가중치 추정 방식을 메타러닝 형태로 확장하면, 보다 복잡한 작업 전이 상황에서도 자동으로 최적 정규화 강도를 찾을 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기