스푸리어스 상관관계 속 서브태스크 증류의 견고성 평가
초록
본 연구는 이미지넷 기반의 대형 모델을 소형 학생 모델로 증류할 때, 학습 데이터에 인위적으로 삽입한 MNIST 숫자와 이미지 클래스 간의 스푸리어스 상관관계가 증류 성능에 미치는 영향을 체계적으로 조사한다. 다양한 교사‑학생 아키텍처와 다섯 가지 증류 기법(출력 전용, AT, VID, VKD, SubDistill)을 비교한 결과, SubDistill가 높은 스푸리어스 비율(100%)에서도 90% 이상의 정확도를 유지하며, 다른 방법들은 급격히 성능이 저하되는 것을 확인하였다. t‑SNE와 XAI 분석을 통해 SubDistill가 교사의 표현을 효과적으로 전달하고, 스푸리어스 특징에 의존하지 않는 결정을 내림을 시각적으로 입증하였다.
상세 분석
이 논문은 서브태스크(distillation for subtask)라는 새로운 증류 패러다임을 실제 데이터의 결함, 특히 스푸리어스 상관관계(spurious correlation)에 노출시켜 그 견고성을 평가한다. 연구자는 이미지넷(ImageNet)에서 ‘wading birds’라는 5개 클래스를 서브태스크로 정의하고, 각 이미지의 좌상단에 56×56 크기의 MNIST 숫자를 삽입한다. 훈련 데이터에서는 숫자와 새 종류가 1:1로 매핑되어 스푸리어스 상관관계를 만들고, 테스트 데이터에서는 무작위로 숫자를 배치해 실제 라벨과 무관하게 만든다. 스푸리어스 비율 ρ를 0%, 50%, 100%로 바꾸어 데이터 오염 정도를 조절한다.
증류 방법은 크게 두 그룹으로 나뉜다. 첫 번째는 출력만 맞추는 전통적인 KL‑다이버전스 기반 ‘output‑only’ 방식이며, 두 번째는 레이어‑와 어텐션‑정렬을 포함한 AT(Attention Transfer), VID(Variational Information Distillation), VKD(Variational Knowledge Distillation), 그리고 최근 제안된 SubDistill을 포함한다. 특히 SubDistill은 교사의 각 레이어에서 서브태스크와 가장 관련된 서브스페이스 U를 추출하고, 학생 모델에 정규화된 정규 직교 변환 V를 적용해 두 표현을 정렬한다. 이는 교사와 학생 사이의 표현 차원을 최소화하면서도 스푸리어스 특징에 대한 민감도를 낮춘다.
실험은 세 가지 교사‑학생 조합(ResNet18→ResNet18‑S, WideResNet101→MBNetv4, ViT‑B16→EfficientFormer‑v2)에서 수행되었다. 모든 방법은 동일한 하이퍼파라미터 탐색(λ∈{0.01,0.1,1,10,100})과 100 epoch 학습, AdamW 옵티마이저, 조기 종료를 적용했다. 결과표(Table I)에서 볼 수 있듯이, ρ가 0%일 때는 모든 방법이 90% 이상 정확도를 기록하지만, ρ가 100%가 되면 ‘output‑only’는 45%~24% 수준으로 급락하고, AT·VID·VKD도 50%~30% 수준으로 떨어진다. 반면 SubDistill은 86%96% 사이의 높은 정확도를 유지한다. 특히 ResNet18‑S 조합에서는 100% 오염에도 86% 이상의 정확도를 보이며, 이는 다른 레이어‑정렬 기반 방법들보다 2030% 포인트 높은 수치이다.
시각적 분석에서는 t‑SNE를 이용해 교사와 학생의 최종 풀링 레이어 표현을 2차원에 투영했다. 교사의 경우 클래스 색상이 명확히 구분되고, MNIST 숫자 라벨은 군집에 거의 영향을 미치지 않는다. 반면 ‘output‑only’와 AT·VID·VKD 학생들은 MNIST 숫자에 따라 군집이 형성돼, 모델이 스푸리어스 특징을 학습했음을 보여준다. SubDistill 학생은 교사와 유사하게 클래스 중심의 군집을 형성하며, 스푸리어스 요소에 대한 의존도가 낮다.
XAI(Explainable AI) 실험에서는 4×4 패치 Occlusion 기법을 적용해 각 패치가 예측에 미치는 영향을 정량화했다. SubDistill 학생은 이미지 중앙부와 새의 형태에 높은 중요도를 부여하지만, MNIST가 삽입된 좌상단 패치에 대한 영향은 거의 없었다. 반면 다른 방법들은 좌상단 패치 제거 시 큰 정확도 변화를 보여, 스푸리어스 특징에 과도히 의존함을 확인했다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 스푸리어스 상관관계가 존재할 때 단순 출력 정렬만으로는 학생 모델이 교사의 진정한 지식을 전달받기 어렵다. 둘째, SubDistill과 같은 서브태스크‑특화 레이어 정렬 기법은 교사와 학생 사이의 표현 정합성을 강화해, 스푸리어스 신호에 대한 과적합을 방지한다. 또한, 복잡한 교사(예: WideResNet, ViT)와 경량 학생을 연결할 때도 SubDistill은 상대적으로 높은 견고성을 유지한다는 점에서 실용적 가치가 크다.
한계점으로는 실험이 이미지넷‑MNIST 합성 데이터에 국한되어 실제 의료·재무 등 도메인에서 발생하는 복합적인 스푸리어스 요인을 완전히 재현하지 못한다는 점, 그리고 SubDistill의 서브스페이스 추출 과정이 추가적인 계산 비용을 요구한다는 점을 들 수 있다. 향후 연구에서는 다양한 도메인 데이터와 다중 스푸리어스 요인, 그리고 효율적인 서브스페이스 탐색 방법을 탐구할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기