연속학습에서 특징공간 이방성의 함정
초록
본 논문은 중앙집중형 학습에서 자연스럽게 나타나는 특징공간의 등방성(isotropy)이 연속학습(continual learning)에서는 오히려 성능 저하를 초래할 수 있음을 실험적으로 입증한다. 대조학습 기반의 여러 연속학습 기법에 등방성 정규화를 추가했을 때 정확도가 감소하고, 특징공간은 점점 비등방적으로 변한다는 결과를 제시한다. 또한 고차원 특징공간을 위한 등방성 측정 지표(IsoEntropy, IsoScore)를 일반화하고, 합성 데이터로 기준선을 마련해 실험을 정량화한다.
상세 분석
이 연구는 딥러닝 모델이 중앙집중형 학습에서 학습 데이터 전체를 한 번에 이용할 때 특징공간이 거의 구형에 가깝게 분포하며, 이는 각 클래스의 평균 벡터가 등각적인 프레임(equiangular tight frame)을 이루는 ‘Neural Collapse’ 현상과 일맥상통한다는 기존 이론을 바탕으로 시작한다. 그러나 연속학습에서는 데이터가 순차적으로, 비정상적인 분포로 제공되면서 모델은 새로운 작업을 학습하면서 기존 작업의 특징구조를 유지하기 어려워진다. 저자는 이러한 현상을 ‘점진적 이방성’이라고 정의하고, 이를 정량화하기 위해 두 가지 고차원 등방성 지표를 제안한다. 첫 번째인 IsoScore는 기존 3차원 지표를 다차원으로 확장했지만, 고차원에서는 샘플링 변동에 민감해 실제 등방성을 정확히 반영하지 못한다. 이를 보완하기 위해 제안된 IsoEntropy는 공분산 행렬의 고유값을 확률분포로 정규화하고, 셰넌 엔트로피를 최대 엔트로피(log D)로 정규화함으로써 0~1 사이의 값으로 등방성을 평가한다.
실험 설계는 CIFAR‑10/100 데이터셋에 ResNet‑18 기반 특징 추출기를 사용하고, 128차원 잠재공간으로 투영한다. 중앙집중형 학습과 세 가지 연속학습 시나리오(2‑experience, 3‑experience, 5‑experience)에서 네 가지 학습 기법—SupCon, Co²L, SupCP, NCI—을 비교한다. SupCP는 SupCon에 클래스 프로토타입 손실을 결합한 변형이며, NCI는 Co²L에 프로토타입 기반 distillation을 추가한 형태이다. 각 방법에 대해 등방성 정규화 항(λ_iso · IsoEntropy)을 삽입한 버전과 삽입하지 않은 버전을 모두 평가한다.
주요 결과는 다음과 같다. ① 중앙집중형 학습에서는 IsoEntropy와 IsoScore가 모두 높은 값을 보이며, 특징공간이 구형 클러스터를 형성한다. ② 연속학습에서는 경험이 증가할수록 두 지표가 급격히 감소하고, t‑SNE 시각화에서 클러스터가 길게 늘어나고 겹치는 형태로 변한다. ③ 등방성 정규화를 적용하면, 특히 Co²L과 NCI에서 정확도가 평균 2~4%p 감소하고, IsoEntropy는 약간 회복되지만 IsoScore는 여전히 낮은 수준에 머문다. 이는 등방성을 강제로 부여하려 할수록 모델이 새로운 작업에 대한 적응성을 잃고, 기존 작업의 기억을 보존하려는 distillation 손실과 충돌한다는 것을 시사한다. ④ 합성 데이터 실험을 통해 ρ(이방성 강도)를 조절했을 때 IsoEntropy가 ρ에 대해 단조 감소함을 확인했으며, 실제 연속학습에서 관찰된 이방성 정도가 합성 기준선보다 훨씬 심함을 보여준다.
이러한 분석은 연속학습에서 등방성을 ‘바람직한’ 편향으로 간주하기엔, 비정상적인 데이터 흐름과 메모리 제한(리플레이 버퍼)으로 인해 특징공간이 본질적으로 비등방적으로 변한다는 점을 강조한다. 따라서 기존 중앙집중형 학습에서 성공적인 등방성 기반 기법을 그대로 적용하기보다는, 작업 간 특징구조의 변화를 허용하거나, 의도적으로 비등방성을 활용하는 새로운 정규화 전략이 필요함을 암시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기