가중치 공간을 들여다보라: BEE, 모델이 학습한 숨은 편향을 드러내다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

기존 방법은 데이터셋 통계나 오류 패턴 분석에 의존해 스퓨리어스 상관관계(Spurious Correlation, SC)를 탐지합니다. 그러나 반례가 없는 경우 많은 유해한 단축 학습(shortcut)을 놓치게 됩니다. 본 연구는 BEE(Bridging Explainability and Embeddings) 프레임워크를 소개합니다. BEE는 모델 예측이 아닌 가중치 공간과 결정을 이끄는 임베딩 기하학에 초점을 맞춥니다. 파인튜닝이 사전 학습된 표현을 어떻게 교란시키는지 분석함으로써, 기존 평가 파이프라인에서는 보이지 않는 SC를 발견합니다. 선형 탐사(Linear Probing)를 투명한 진단 도구로 사용하여, 완전 파인튜닝 후에도 지속되고 다양한 최신 모델 간에도 전이되는 스퓨리어스 특성을 밝혀냅니다. 비전(Waterbirds, CelebA, ImageNet-1k), 언어(CivilComments, MIMIC-CXR 의료 기록), 다양한 임베딩 패밀리(CLIP, mGTE 등)에 걸친 실험에서 BEE는 일관되게 SC를 노출시켰습니다. 이 결과는 BEE를 가중치 공간에서 SC를 진단하는 일반적이고 원칙적인 도구로 자리매김하게 합니다.

상세 분석

BEE 프레임워크의 기술적 핵심은 파인튜닝 과정에서 선형 분류기의 클래스 가중치 벡터가 어떻게 이동하는지를 추적하는 데 있습니다. 사전 학습된 파운데이션 모델(예: CLIP)의 텍스트 인코더를 통해 얻은 클래스 이름의 ‘제로샷’ 임베딩(W0_k)으로 분류기 가중치를 초기화합니다. 학습이 진행되면서 이 가중치는 목표 클래스의 진정한 의미론적 개념뿐만 아니라 데이터셋에 존재하는 스퓨리어스한 속성(예: 배경, 맥락) 방향으로 이동(W*_k)합니다. BEE는 이 이동 궤적을 분석합니다.

핵심 아이디어는 학습된 가중치 벡터(W*_k)와 텍스트로 표현된 ‘개념’(예: ‘불꽃’, ‘바다’)의 임베딩이 동일한 임베딩 공간에 존재한다는 점을 이용하는 것입니다. BEE는 먼저 데이터셋에서 추출한 모든 개념 중에서 WordNet이나 LLM을 사용해 클래스와 의미론적으로 직접 관련된 개념(예: ‘새’ 클래스와 관련된 ‘부리’, ‘날개’)을 필터링하여 ‘클래스-중립 개념’ 집합을 생성합니다. 남은 클래스-중립 개념들에 대해, 각 클래스 k의 학습된 가중치 W*_k와의 유사도를 계산합니다. 여기서 BEE의 핵심 메트릭인 양의 SC 점수(s+_k,i)가 등장합니다. 이는 개념 i가 클래스 k와 얼마나 유사한지에서, 다른 모든 클래스와의 유사도 중 최소값을 뺀 값입니다. 이는 “이 개념이 오직 이 클래스에만 강하게 연관되어 있는가?“를 측정합니다. 높은 점수는 해당 개념이 클래스 k에 대해 강력한 스퓨리어스 단서가 될 가능성을 시사합니다. 마지막으로, 스무딩된 점수 곡선과 기준선 사이의 최대 거리를 기준으로 동적 임계값을 설정해 각 클래스별 최상위 SC를 자동으로 선별합니다.

이 방법론의 강점은 명시적인 반례(예: 물 배경의 땅새)가 검증 세트에 없어도 모델이 내부적으로 학습한 편향을 가중치 수준에서 직접 ‘볼’ 수 있다는 점입니다. 실험 결과는 이를 입증합니다. ImageNet-1k에서 BEE가 발견한 SC(예: ‘소방관’이 ‘불장난’ 클래스와 강하게 연관됨)를 테스트 이미지에 추가하면 모델 정확도가 최대 95%까지 떨어졌습니다. 이는 BEE가 발견한 상관관계가 단순한 통계적 유희가 아니라 모델의 실제 결정 과정에 직접적인 영향을 미치는 ‘학습된 편향’임을 의미합니다. 또한, 이러한 SC는 선형 탐사에서만 발견되는 것이 아니라, 전체 모델 파인튜닝 후에도 지속되며, CLIP, BLIP2, SigLIP2 등 서로 다른 아키텍처의 파운데이션 모델 간에도 전이되었습니다. 이는 특정 모델의 결함이 아닌, 데이터셋 자체에 내재된 근본적인 편향 문제를 BEE가 포착할 수 있음을 시사합니다.

가중치 공간을 들여다보라: BEE, 모델이 학습한 숨은 편향을 드러내다

초록

상세 분석

댓글 및 학술 토론

의견 남기기