이중 단계 지속 학습: 감독 적응과 비감독 유지의 결합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 클래스‑증분 지속 학습에서 테스트 시점의 라벨이 없는 데이터를 활용해 망각을 완화하는 새로운 프레임워크 DoSAPP을 제안한다. 교사‑학생 구조와 이중 모멘텀 EMA, 그리고 10 % 수준의 희소 파라미터 업데이트를 결합해 메모리 없이도 과거 과업 성능을 유지한다. 실험 결과 CLIP 기반 모델에 적용했을 때 기존 재생 기반 방법들을 능가한다.

상세 분석

DoSAPP은 기존 지속 학습이 직면한 두 가지 핵심 한계를 동시에 해결한다. 첫째, 새로운 과업을 학습할 때 발생하는 급격한 분포 변화가 초래하는 급격한 망각을 완화하기 위해, 학습 단계가 끝난 뒤 배포 단계에서 테스트 시점에 수집되는 라벨이 없는 데이터를 온라인으로 활용한다. 이는 기존 테스트‑타임 적응(TTA) 연구와 달리 “도메인 이동” 자체를 목표로 하지 않고, 오히려 이전 과업의 대표 샘플을 재활용해 과거 지식을 재강화한다는 점에서 차별화된다.

둘째, 메모리 버퍼 없이 파라미터를 업데이트해야 하는 제약 하에서, 전체 모델이 아닌 CLIP의 Transformer 블록 중 첫 번째 MLP 레이어에 국한된 파라미터 집합을 대상으로 gradient magnitude 기반 스코어링을 통해 상위 10 %만을 선택한다. 이렇게 희소하게 선택된 파라미터만을 SGD로 업데이트함으로써 파라미터 변화 폭을 최소화하고, 기존 지식이 크게 변질되는 것을 방지한다.

교사‑학생 구조는 두 개의 모델 M_T(teacher)와 M_S(student)를 유지한다. 학생 모델이 선택된 파라미터에 대해 실제 라벨(감독 단계) 혹은 pseudo‑label(비감독 단계)로 학습하면, 교사 모델은 학생 파라미터의 EMA(Exponential Moving Average)로 업데이트된다. 여기서 핵심은 “이중 모멘텀”이다. 교사 파라미터 중 학생이 활성화한 파라미터와 고정된 파라미터에 서로 다른 스무딩 계수를 적용함으로써, 활성 파라미터는 빠르게 따라가면서도 과도한 변동을 억제하고, 고정 파라미터는 거의 변하지 않게 유지한다. 논문에서는 이를 affine projection of binary mask m 으로 수식화하고, 실험을 통해 γ < λ < δ 라는 순서를 최적으로 확인한다.

알고리즘 1은 두 단계(감독 학습 → 비감독 테스트‑타임 학습)를 명확히 구분한다. 감독 단계에서는 선택된 파라미터 θ_m에 대해 일반적인 CLIP 손실을 최소화하고, 동시에 교사 EMA를 수행한다. 비감독 단계에서는 테스트 샘플 x_i에 대해 교사와 학생의 logits을 비교해 더 높은 confidence를 보이는 쪽의 예측을 pseudo‑label 로 사용한다. 이렇게 얻은 pseudo‑label 로 학생의 선택 파라미터를 다시 업데이트하고, 교사 EMA를 재적용한다.

실험에서는 5‑task, 10‑task, 20‑task 클래스‑증분 시나리오에서 기존 재생 기반 방법(EcoTT‑A, RMT 등)과 비교했으며, 평균 정확도와 망각 지표에서 일관되게 우수함을 보였다. 특히 메모리 사용량이 0 MB인 상황에서도 재생 기반 방법에 근접하거나 능가하는 성능을 달성했다. Ablation study에서는 (1) 희소 비율 c를 5 %~20 % 범위에서 변동시 성능이 크게 달라지지 않음, (2) 이중 모멘텀 없이 단일 EMA를 사용할 경우 망각이 급격히 증가함을 확인했다.

한계점으로는 (a) 테스트 시점 데이터가 충분히 대표성을 가질 경우에만 효과가 크며, 극히 편향된 스트림에서는 pseudo‑label 품질이 저하될 가능성이 있다. (b) 현재는 CLIP의 이미지‑텍스트 쌍을 전제로 하지만, 순수 텍스트 혹은 순수 이미지 전용 모델에 바로 적용하기 위해서는 추가적인 설계가 필요하다. (c) 온라인 테스트‑타임 학습이 매 샘플당 한 번의 SGD 업데이트만을 허용하므로, 매우 큰 배치나 고차원 데이터에서는 수렴 속도가 느려질 수 있다.

전반적으로 DoSAPP은 “감독‑비감독 교차 학습”이라는 새로운 패러다임을 제시하며, 메모리 제약이 심한 실시간 서비스(예: 로봇, 스마트 홈)에서 지속 가능한 모델 업데이트를 가능하게 한다는 점에서 실용적 가치가 크다. 향후 연구는 (i) pseudo‑label 신뢰도 추정 및 필터링, (ii) 다중 모달 및 멀티태스크 확장, (iii) 프라이버시 보장을 위한 암호화된 테스트‑타임 학습 등으로 이어질 수 있다.

이중 단계 지속 학습: 감독 적응과 비감독 유지의 결합

초록

상세 분석

댓글 및 학술 토론

의견 남기기