모티크: 모멘텀 기반 특징 긴밀성 및 대조 학습으로 극소량 클래스 증분 학습 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 극소량 샘플로 새로운 클래스를 학습하면서 기존 클래스 지식을 보존해야 하는 FSCIL 문제에 대해, 베이즈 이론을 기반으로 새로운 클래스 프로토타입에 기존 클래스 통계 정보를 사전으로 제공함으로써 추정 편향을 감소시킨다. 이를 구현하기 위해 대규모 큐를 활용한 모멘텀 기반 자기지도 대조 학습과, 서로 다른 클래스 간 특징을 의도적으로 긴밀하게 만드는 새로운 손실함수(L_MoTi) 그리고 가상 클래스(virtual categories)를 도입한 MoTiC 프레임워크를 제안한다. 실험 결과 CUB‑200, CIFAR‑100 등 세 가지 벤치마크에서 최첨단 성능을 달성한다.

상세 분석

MoTiC 논문은 FSCIL(Few‑Shot Class‑Incremental Learning)이라는 두 가지 난제를 동시에 해결하려는 시도이다. 첫 번째는 “새로운 클래스를 극소량(K‑shot) 데이터만으로 학습”하는 문제이며, 두 번째는 “기존에 학습한 베이스 클래스의 지식을 망가뜨리지 않도록(카타스트로픽 포게팅 방지) 유지”하는 문제이다. 기존 연구들은 베이스 단계에서 충분히 학습된 피처 추출기를 고정하고, 각 클래스의 평균 임베딩(프로토타입)만을 업데이트하는 방식을 주로 사용한다. 그러나 이런 접근은 새로 추가되는 클래스의 프로토타입이 샘플 수가 적어 고분산(MLE) 추정이 되기 쉽고, 결과적으로 분류 정확도가 크게 떨어진다.

1. 베이즈 분석을 통한 사전 정보 제공

논문은 먼저 새 클래스 프로토타입 ˆµ_MLE = (1/K)∑fθ(x_i) 의 분산이 σ²/K 로, K가 작을수록 크게 변동한다는 점을 지적한다. 여기서 기존 클래스 c′의 잘 추정된 프로토타입 µ_c′ 를 Gaussian prior N(µ_c′, τ²I) 로 가정하면, 사후 평균 ˆµ_Bayes = (σ⁻²∑fθ(x_i) + τ⁻²µ_c′)/(Kσ⁻² + τ⁻²) 로 계산된다. τ² 가 작을수록(즉, 기존 클래스와의 의미적 유사성이 클수록) 사후 분산이 크게 감소한다. 이는 “새 클래스는 기존 클래스의 특징을 재조합한다”는 직관과 일치한다. 따라서 베이즈 관점에서 볼 때, 기존 클래스의 통계적 정보를 사전으로 활용하면 극소량 샘플에서도 프로토타입 추정이 안정된다.

2. 모멘텀 기반 자기지도 대조 학습 (MoCo)

베이즈 사전 정보를 실제 모델에 반영하기 위해, 논문은 MoCo 스타일의 모멘텀 인코더와 대규모 큐를 도입한다. Query encoder fθ와 key encoder fθ′는 동일한 구조를 가지며, key encoder는 파라미터를 EMA(Exponential Moving Average) 방식으로 업데이트한다(θ′←mθ′+(1−m)θ). 이렇게 하면 과거 배치의 특징이 큐에 지속적으로 저장되어 “전역적인 특징 사전”을 형성한다. L_ssc 손실은 기존 MoCo와 동일하게, 현재 query와 동일 이미지의 key 사이의 코사인 유사도를 최대화하고, 큐에 있는 모든 다른 key와는 구분하도록 설계된다. 이 과정은 특징 공간을 풍부하게 만들고, 특히 소수 샘플에서 발생하는 과적합을 완화한다.

3. 클래스 간 긴밀성 강화 (L_MoTi)

전통적인 대조 학습은 같은 클래스 내의 샘플을 가깝게, 다른 클래스는 멀게 배치하는 것이 목표다. MoTiC는 이와 반대로 “다른 클래스 간의 특징을 의도적으로 긴밀하게” 만든다. 구체적으로, query q와 서로 다른 라벨을 가진 키(k′)들의 코사인 유사도 합을 정규화한 형태의 손실 L_MoTi = - (1/B)∑ log (∑_{k′∈F(q)} exp(q·k′))/|F(q)| 를 최소화한다. 여기서 F(q)는 현재 배치와 큐에 존재하는, 라벨이 q와 다른 모든 특징이다. 이 손실은 서로 다른 클래스가 공유하는 저‑레벨/중‑레벨 특징(예: “깃털”, “날개” 등)을 서로 가깝게 배치함으로써, 새로운 클래스가 기존 클래스들의 특징을 조합해 생성될 수 있는 “특징 재조합 가능성”을 높인다. 결과적으로 새 클래스 프로토타입이 기존 클래스 프로토타입에 더 가까운 위치에 놓이게 되어, 베이즈 사전과 자연스럽게 일치한다.

4. 가상 클래스(Virtual Categories)

베이즈 분석에서 사전 정보는 “유사한 기존 클래스”에서 온다고 가정했지만, 실제 데이터에서는 아직 등장하지 않은 클래스가 존재한다. 이를 보완하기 위해 논문은 가상 클래스를 도입한다. 가상 클래스는 기존 클래스들의 특징을 선형 결합하거나 클러스터링을 통해 생성된 임시 프로토타입이며, 학습 과정에서 실제 라벨이 없는 샘플에 할당된다. 가상 클래스는 두 가지 역할을 한다. (1) 특징 큐에 추가적인 “중간” 영역을 제공해, 서로 다른 실제 클래스 사이의 거리(간격)를 인위적으로 축소한다. (2) 새로운 클래스가 등장했을 때, 가상 클래스가 제공하는 사전 분포를 활용해 베이즈 사후 추정이 더욱 정확해진다. 실험에서는 가상 클래스 수를 10~20개로 설정했으며, 이는 메모리 비용이 크게 증가하지 않으면서도 성능 향상에 기여한다.

5. 전체 파이프라인 및 학습 절차

1️⃣ 베이스 단계: 충분한 데이터로 피처 추출기 fθ를 학습하고, 크로스 엔트로피 손실로 베이스 클래스 프로토타입을 초기화한다.
2️⃣ 큐 초기화: 베이스 데이터로부터 추출한 key 특징들을 큐에 저장한다.
3️⃣ 증분 단계(각 세션):

새 클래스 K‑shot 샘플을 이용해 MoCo‑style 대조 학습(L_ssc)과 L_MoTi 손실을 동시에 최적화한다.
가상 클래스를 생성하고, 해당 특징을 큐에 삽입한다.
새 클래스 프로토타입은 베이즈 사후식(6)을 사용해 기존 클래스와 가상 클래스의 평균을 사전으로 삼아 계산한다.
4️⃣ 추론: 모든 클래스(베이스, 증분, 가상)의 프로토타입을 이용해 최근접 클래스 평균(NCM) 방식으로 라벨을 예측한다.

6. 실험 결과 및 의미

CUB‑200(세밀한 조류 데이터), CIFAR‑100, mini‑ImageNet 등 세 가지 FSCIL 벤치마크에서 MoTiC는 기존 최첨단 방법보다 평균 2~4%p(percentage points) 높은 정확도를 기록한다. 특히 CUB‑200에서는 “새로운 조류 종”이 기존 조류와 포유류 특징을 혼합하는 경우가 많아, 가상 클래스와 클래스 간 긴밀성 손실이 큰 효과를 보였다. Ablation study에서는 (a) MoCo만 사용했을 때와 (b) L_MoTi만 사용했을 때보다 두 손실을 동시에 적용했을 때 가장 큰 성능 향상이 나타났으며, (c) 가상 클래스를 제거하면 베이즈 사후 추정의 편향 감소 효과가 급격히 감소함을 확인했다. 메모리 사용량은 큐 크기와 가상 클래스 수에 따라 조절 가능하며, 실제 적용 환경(예: 로봇 시각, 모바일 디바이스)에서도 실시간 학습이 가능하도록 설계되었다.

7. 한계 및 향후 연구

현재는 Gaussian 사전 가정에 기반한 베이즈 모델을 사용했지만, 실제 특징 분포는 다변량 비정규일 수 있다. 보다 일반적인 사전(예: 혼합 가우시안) 탐색이 필요하다.
가상 클래스 생성 방식이 현재는 간단한 클러스터링/선형 결합에 의존한다. 생성적 모델(GAN, VAE)과 결합하면 더 풍부한 사전 정보를 제공할 수 있다.
대규모 실시간 시스템에서 큐 업데이트와 가상 클래스 관리가 병목이 될 수 있으므로, 효율적인 메모리 관리 기법이 추가로 요구된다.

종합하면, MoTiC는 베이즈 이론을 실용적인 자기지도 대조 학습과 결합해, FSCIL 상황에서 “특징 풍부성”, “클래스 간 긴밀성”, “가상 사전”이라는 세 축을 동시에 강화함으로써 기존 방법보다 견고하고 일반화된 증분 학습을 구현한다.