CLIP 임베딩 변동 분석 증강이 미치는 영향
초록
본 논문은 CLIP 비전‑언어 모델에 9가지 일반적인 이미지 증강을 적용했을 때 발생하는 임베딩 변동을 다각적인 메트릭(코사인 유사도, L2 거리, 어텐션 맵 변화, 패치·엣지·디테일 보존 등)으로 정량·정성 분석한다. 노이즈, 퍼스펙티브 변환, 스케일·회전이 가장 큰 변동을 일으키며, 밝기·대비 조정이나 수평 플립은 비교적 안정적인 임베딩을 유지한다는 결과를 제시한다.
상세 분석
본 연구는 CLIP‑base‑patch32 모델을 대상으로 Conceptual Captions 검증 세트에서 무작위로 추출한 13 312장의 이미지와, 추가 메트릭 계산을 위해 2 000장의 샘플을 사용하였다. 증강은 Albumentations 라이브러리를 통해 구현했으며, 각 증강별 하이퍼파라미터는 논문 부록에 상세히 명시돼 있다. 주요 분석 흐름은 다음과 같다.
-
임베딩 거리·유사도 측정: 원본 이미지와 증강 이미지 사이의 코사인 유사도와 L2 거리를 각각 전체 이미지에 대해 평균화하였다. KDE(핵밀도 추정)와 히스토그램을 통해 노이즈와 퍼스펙티브 변환이 다른 증강에 비해 분포가 크게 퍼져 있음을 확인했다.
-
어텐션 맵 변화: 최종 어텐션 레이어의 2‑D 어텐션 맵을 원본과 비교해 평균 제곱 차이(Attn Sim)로 정량화했다. 노이즈, 블러, 스케일·회전, 퍼스펙티브 변환에서 어텐션 집중도가 분산되는 경향이 뚜렷했으며, 특히 블러는 주요 객체에 대한 고정점을 약화시켜 히트맵이 넓게 퍼졌다.
-
패치·엣지·디테일 보존: 이미지 전체를 16×16 패치로 나누어 MSE 기반 패치 유사도, Sobel 연산을 이용한 엣지 유사도, 그리고 표준편차 기반 디테일 유사도를 계산하였다. 결과는 색상 변형(컬러 Jitter, 코스 드롭아웃)과 구조 변형(스케일·회전, 퍼스펙티브)에서 디테일 손실이 크게 나타났으며, 수평 플립은 패치 매칭 방식의 비대칭성 때문에 디테일 점수에서 다소 낮은 평가를 받았다.
-
덴드로그램 클러스터링: 원본‑증강 임베딩 간 평균 거리를 기반으로 계층적 군집화를 수행했다. 노이즈는 독립적인 클러스터를 형성했고, 블러·스케일·퍼스펙티브가 하나의 서브클러스터에 모였다. 이는 구조적 변형이 임베딩 공간에서 유사한 변화를 일으킨다는 점을 시사한다.
-
레이다 플롯 종합: 각 증강별로 위 메트릭을 레이다 차트에 시각화해 전체적인 성능 프로파일을 제시하였다. 노이즈는 대부분의 지표에서 최악의 점수를 받았으며, 밝기·대비 조정은 거의 모든 지표에서 최상위에 위치했다.
핵심 인사이트
- CLIP의 비전 인코더는 색상·명암 변형에 비교적 강인하지만, 고주파 노이즈와 기하학적 변형(특히 퍼스펙티브와 스케일·회전)에는 민감하게 반응한다.
- 어텐션 맵 변화는 임베딩 거리와 높은 상관관계를 보이며, 어텐션이 분산될수록 코사인 유사도는 급격히 감소한다.
- 패치·엣지·디테일 보존 메트릭은 증강이 이미지 구조를 얼마나 파괴했는지를 정량화하는 데 유용하며, 특히 디테일 보존은 코사인 유사도와 거의 일치하는 패턴을 보였다.
- 클러스터링 결과는 증강 종류별로 임베딩 공간에서의 변동 양상을 시각적으로 확인할 수 있게 해준다.
본 논문의 방법론은 향후 VLM의 견고성 평가, 메커니즘 해석, 그리고 증강 기반 방어 전략 설계에 활용될 수 있다. 특히, 텍스트‑이미지 정렬을 고려한 레이어‑와이즈 분석이나, 다른 멀티모달 모델(BLIP, Kosmos‑2, Flamingo)과의 비교 연구가 자연스러운 확장 방향이다.
댓글 및 학술 토론
Loading comments...
의견 남기기