경량 플러그인으로 증강하는 증류 기반 클래스 증분 학습
초록
본 논문은 기존의 재생·증류 기반 클래스 증분 학습(CIL) 모델을 ‘베이스 모델’로 보고, 각 증분 작업마다 Low‑Rank Adaptation(LoRA) 형태의 경량 플러그인(Plugin)을 추가하는 DLC(Deployment of LoRA Components) 프레임워크를 제안한다. 플러그인은 깊은 층에 잔차를 주입해 작업‑특화 표현을 보강하고, 가벼운 가중치 유닛이 비관련 플러그인의 영향을 억제한다. ImageNet‑100 실험에서 ResNet‑18 기준 파라미터 4 %만 추가해 정확도를 8 % 끌어올렸으며, 동일 메모리 제한 하에서 확장 기반 최첨단 방법들을 능가한다.
상세 분석
이 논문은 클래스 증분 학습에서 흔히 마주치는 ‘안정성‑플라스틱성 딜레마’를 해결하기 위한 새로운 패러다임을 제시한다. 기존의 재생·증류 기반 CIL은 단일 모델에 과거 지식을 보존하도록 설계돼 파라미터 효율성은 높지만, 새로운 작업을 학습할 때 기존 손실과 새로운 손실 사이의 그래디언트 충돌로 인해 성능이 한계에 봉착한다. 저자들은 이러한 한계를 ‘베이스 모델’이 이미 풍부한 표현을 학습했음에도 불구하고, 작업‑특화 파라미터를 거의 추가하지 않음으로써 발생하는 ‘표현 용량 부족’으로 규정한다.
DLC는 이 문제를 Low‑Rank Adaptation(LoRA)이라는 파라미터 효율적 튜닝 기법을 플러그인 형태로 도입함으로써 해결한다. 구체적으로, 각 증분 작업 t마다 k개의 LoRA 플러그인을 모델의 최상위 Convolution 층부터 역방향으로 점진적으로 배치한다. LoRA는 기존 가중치를 고정하고 두 개의 저차원 행렬(ΔA, ΔB)을 학습해 W←W+ΔA·ΔB 형태로 잔차를 주입한다. 이 구조는 파라미터 수를 원래 가중치 대비 몇 퍼센트 수준으로 억제하면서도, 작업‑특화 비선형 변환을 효과적으로 구현한다.
학습 단계는 두 단계로 분리된다. ① 베이스 모델(특징 추출기 ϕ와 분류기 W)은 기존 CIL 파이프라인(재생 + 증류)대로 업데이트하고, 플러그인은 모두 고정한다. ② 베이스 모델이 고정된 뒤, 현재 작업 전용 플러그인 L_t만을 학습한다. 플러그인 학습 손실은 교차 엔트로피와 기존 확장 방식에서 사용되는 보조 손실(L_aux)의 합으로 정의돼, 플러그인이 독립적으로 목표 작업에 최적화되도록 한다. 이렇게 하면 증류 손실과 플러그인 학습이 서로 간섭하지 않아 안정적인 수렴이 가능하다.
추론 시에는 모든 플러그인을 활성화해 각기 다른 작업‑특화 표현을 추출하고, 이들을 하나의 벡터로 연결(concatenate)한다. 그러나 비관련 플러그인의 잔차가 노이즈를 유발할 수 있으므로, 저자는 ‘가벼운 가중치 유닛(Weighting Unit)’을 도입한다. 이 유닛은 각 플러그인 출력에 스칼라 가중치 α_t를 학습해, 입력 샘플과 가장 연관된 플러그인에 높은 가중치를 부여하고, 그렇지 않은 플러그인의 영향을 억제한다. 구현은 단일 Fully‑Connected 레이어와 Softmax를 이용한 간단한 구조로, 전체 파라미터 증가량에 비해 매우 경량이다.
실험 결과는 두 가지 측면에서 의미가 크다. 첫째, ImageNet‑100에서 ResNet‑18 기반 DLC는 전체 파라미터를 기존 모델 대비 약 4 %만 추가했음에도 불구하고 정확도를 8 % 상승시켰다. 이는 기존 증류 기반 CIL이 겪는 안정성‑플라스틱성 트레이드‑오프를 효과적으로 완화했음을 보여준다. 둘째, 동일 메모리 예산(재생 버퍼 크기) 하에서 DLC를 적용한 iCaRL, WA, BiC 등 대표적인 CIL 방법들은 파라미터 확장 기반 최신 방법들을 능가했다. 이는 플러그인 방식이 파라미터 효율성을 유지하면서도 확장형 모델이 제공하는 성능 향상을 대체할 수 있음을 입증한다.
또한 논문은 이론적 분석을 통해 LoRA 플러그인이 삽입된 레이어의 출력 변동이 기존 증류 손실에 미치는 영향을 경계값 K_ℓ·Γ_t 로 제시한다. 여기서 K_ℓ은 네트워크 구조와 온도 파라미터에 의존하고, Γ_t는 재생·증류 전략이 만든 분포 차이를 나타낸다. 이러한 경계는 플러그인 학습이 베이스 모델의 특징 드리프트를 제한된 범위 내에 머물게 함으로써, 증류 기반 손실이 안정적으로 유지될 수 있음을 이론적으로 뒷받침한다.
전체적으로 DLC는 ‘플러그‑인형 확장’이라는 새로운 설계 철학을 제시한다. 기존 CIL이 파라미터를 전부 공유하거나 전체 네트워크를 확장하는 두 극단 사이에서 선택해야 했던 문제를, 저비용의 작업‑특화 플러그인과 가중치 유닛을 통해 중간 지점을 만든다. 이는 특히 모바일·엣지 디바이스와 같이 메모리·연산 제약이 큰 환경에서 연속 학습을 구현하고자 하는 실무자들에게 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기