스마트 모델의 함정 탈피: 설명 기반 Clever Hans 탐지와 제거
초록
본 논문은 대규모 이미지 데이터셋에서 모델이 학습하는 은연한 편향(‘Clever‑Hans’ 현상)을 XAI 기반 설명 방법으로 자동 탐지하고, 제안된 Class Artifact Compensation(ClArC) 기법으로 이를 효과적으로 억제하는 프레임워크를 제시한다.
상세 분석
이 연구는 현재 딥러닝 모델이 대규모 벤치마크 데이터에 내재된 미세한 편향을 학습해 ‘Clever‑Hans’(CH) 현상을 보이는 문제를 해결하고자 한다. 핵심 기술은 기존 Spectral Relevance Analysis(SpRAy)를 확장해 수백만 개의 로컬 설명(예: LRP, Grad‑CAM 등)에서 자동으로 특징적인 설명 패턴을 추출하고, 이를 스펙트럼 클러스터링으로 그룹화한다. 클러스터링 결과는 특정 클래스에만 반복적으로 나타나는 비정상적인 ‘아티팩트’ 영역을 식별하는데, 이는 인간이 직접 눈으로 확인하기 어려운 스파스한 신호이다. 식별된 아티팩트는 두 단계로 모델에 반영된다. 첫 번째는 Artifact Model Estimation 단계로, 아티팩트를 명시적으로 정의하거나(전문가 지식 기반) 데이터‑기반으로 학습된 CA‑Vs(클래스 대비 가중치) 형태의 모델을 만든다. 두 번째는 Class Artifact Compensation(ClArC) 단계이다. 여기서는 두 가지 구현이 제시된다. ① P‑ClArC은 아티팩트가 가장 강하게 표현되는 레이어에서 해당 신호를 프로젝션하거나 마스크하여 전파를 차단한다. 이는 사후 처리(post‑hoc) 방식으로 기존 가중치를 거의 변경하지 않아 연산 비용이 낮다. ② A‑ClArC은 아티팩트 신호를 모든 클래스에 균등하게 주입해 학습 과정에서 아티팩트의 클래스‑특이적 정보를 희석시킨다. 즉, 모델이 아티팩트에 의존하지 않도록 재학습을 유도한다. 두 방법 모두 기존 모델에 최소한의 구조적 변경만을 요구한다. 실험에서는 컬러 MNIST, ImageNet, Adience 얼굴 데이터, ISIC 2019 피부 병변 데이터에 적용했으며, 정량적 지표(예: 아티팩트 관련 설명 점수 감소, Top‑1/Top‑5 정확도 유지)와 정성적 시각화(heatmap 변화)를 통해 CH 현상이 크게 완화됨을 입증했다. 특히 ImageNet에서 ‘horse’ 클래스가 물표시(watermark)와 연관된 설명을 보였던 현상이 P‑ClArC 적용 후 거의 사라졌으며, A‑ClArC은 전체 정확도 저하 없이 아티팩트 의존도를 70 % 이상 감소시켰다. 한계점으로는 아티팩트가 사전에 정의되지 않은 경우 자동 탐지 정확도가 낮아질 수 있으며, 매우 희귀한 아티팩트에 대해서는 클러스터링 파라미터 튜닝이 필요하다는 점을 언급한다. 전반적으로 이 논문은 XAI와 스펙트럼 분석을 결합해 대규모 데이터에서 은밀한 편향을 발견하고, 두 단계의 보정 메커니즘을 통해 모델을 ‘깨끗하게’ 만드는 실용적인 파이프라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기