쿠푸 클립 선형 판별 분석으로 CLIP 임베딩 최적화
초록
본 논문은 CLIP의 시각 임베딩을 Fukunaga‑Koontz 선형 판별 분석(LDA) 기반의 화이트닝 변환으로 재구성하는 Koo‑Fu CLIP을 제안한다. 폐쇄형 분류에서 클래스 프로토타입 기반(NVP) 판별력을 크게 향상시키며, 10‑12배까지 차원 축소해도 정확도 손실이 거의 없다는 장점을 보인다.
상세 분석
Koo‑Fu CLIP은 기존 CLIP 모델이 제공하는 768‑차원 시각 임베딩을 그대로 사용하되, 감독 학습된 선형 변환을 추가한다. 핵심은 Fukunaga‑Koontz 변환으로, 이는 전통적인 LDA를 두 단계로 확장한다. 첫 단계에서는 클래스 내 공분산 행렬 S_w를 고유값 분해하고, 정규화 파라미터 λ를 이용해 S′_w = S_w + λI 를 만든 뒤 역제곱근 S_w^{‑1/2} 를 계산한다. 이 연산은 임베딩을 ‘화이트닝’하여 클래스별 분산을 구형(spherical)으로 만든다. 두 번째 단계에서는 화이트닝된 공간에서 클래스 평균 차이를 이용해 새로운 클래스 간 산포 행렬 S′_b 를 구성하고, 이를 다시 고유값 분해한다. 상위 L 개의 고유벡터 u_j 를 선택해 회전 행렬 U_L 을 만들고, 최종 변환 행렬 T = U_L^T · S_w^{‑1/2} 를 얻는다. 이 변환은 닫힌 형태이므로 학습 단계에서 역전파가 필요 없으며, λ 하나와 차원 L 두 개만 하이퍼파라미터로 조정한다.
변환 후 임베딩은 클래스 평균이 크게 벌어지고, 클래스 내부 변동이 최소화돼 최근접 프로토타입(NVP) 분류에서 거리 기반 결정이 보다 명확해진다. 실험에서는 ImageNet‑1K에서 원본 CLIP(Top‑1 75.1 %) 대비 4 %p 상승한 79.1 %를 기록했으며, 라벨 수가 14K·21K로 확대돼도 동일한 상승 폭을 유지한다. 차원 축소 실험에서는 768→256(3×)으로 줄여도 정확도 저하가 0.5 % 이하이며, 768→64(12×)까지 압축해도 원본과 동등하거나 약간 앞선 성능을 보였다. 이는 화이트닝이 고차원에서 발생하는 잡음과 중복 정보를 효과적으로 제거하고, 판별 정보만을 남기기 때문이다.
또한 k‑NN과 비교했을 때 NVP는 메모리 요구량이 클래스 수에 비례해 매우 작아 대규모 데이터셋에서 실용적이며, k‑NN이 제공하는 1‑2 %p 정도의 소폭 이득은 저장·검색 비용이 천 배 이상 증가하는 단점을 감안하면 실용성이 떨어진다. 정규화 λ는 작은 값(10^{‑4}~10^{‑2})이 최적이며, 너무 큰 λ는 화이트닝 효과를 약화시켜 성능이 감소한다. 거리 측정은 코사인 유사도가 가장 안정적이었고, 유클리드 거리에서도 비슷한 추세를 보였다.
요약하면, Koo‑Fu CLIP은 기존 CLIP 임베딩을 거의 손대지 않으면서도, 선형 변환 하나로 클래스 구분력을 크게 강화하고, 차원 축소를 통한 효율성까지 동시에 달성한다. 이는 대규모 이미지 분류·검색 시스템에서 파라미터·메모리·연산 비용을 크게 절감하면서도 정확도를 유지하거나 향상시킬 수 있는 실용적인 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기