SOTAlign: 최적수송 기반 반지도 학습으로 시각·언어 모델 정렬
** 본 논문은 제한된 이미지‑텍스트 쌍과 대량의 비쌍 데이터만을 이용해 사전 학습된 비전·언어 인코더를 정렬하는 새로운 반지도 학습 프레임워크 SOTAlign을 제안한다. 1단계에서는 선형 교사 모델을 통해 소량의 쌍으로 거친 공동 기하학을 복원하고, 2단계에서는 최적수송 기반 발산을 이용해 비쌍 샘플 간 관계 구조를 전이함으로써 정밀한 공동 임베딩을
초록
**
본 논문은 제한된 이미지‑텍스트 쌍과 대량의 비쌍 데이터만을 이용해 사전 학습된 비전·언어 인코더를 정렬하는 새로운 반지도 학습 프레임워크 SOTAlign을 제안한다. 1단계에서는 선형 교사 모델을 통해 소량의 쌍으로 거친 공동 기하학을 복원하고, 2단계에서는 최적수송 기반 발산을 이용해 비쌍 샘플 간 관계 구조를 전이함으로써 정밀한 공동 임베딩을 학습한다. 실험 결과, 기존 완전 지도 및 반지도 방법들을 크게 앞서며 다양한 데이터셋·인코더 조합에서도 강인한 성능을 보인다.
**
상세 요약
**
SOTAlign은 “플라톤 표현 가설”을 실용적인 정렬 메커니즘으로 구체화한다는 점에서 학문적·공학적 의미가 크다. 기존 연구들은 수백만 개의 이미지‑텍스트 쌍을 필요로 하는 대조 손실 기반 정렬에 의존했으며, 이는 데이터 수집 비용과 도메인 편향 문제를 야기한다. 반면 SOTAlign은 두 단계로 문제를 분할한다. 첫 번째 단계에서는 제한된 쌍 데이터를 이용해 선형 매핑 (W) (teacher)를 학습한다. 이 매핑은 고차원 비전·언어 임베딩을 저차원 공동 공간에 투사하면서, 양쪽 모달리티가 공유하는 거시적 구조—예를 들어 클러스터 간 거리 비율—를 보존한다. 선형성은 과적합 위험을 최소화하고, 소량 데이터에서도 안정적인 초기 정렬을 가능하게 한다.
두 번째 단계는 핵심 혁신인 최적수송 기반 정렬 손실이다. 비쌍 이미지와 텍스트 각각을 현재 정렬된 모델(학생)로 인코딩한 뒤, 두 집합 사이의 비용 행렬 (C_{ij}=d(f_i^{\text{img}}, f_j^{\text{txt}})) (여기서 (d) 는 유클리드 혹은 코사인 거리) 를 구성한다. Sinkhorn‑Kullback‑Leibler 정규화를 적용해 확률적 매칭 행렬 (P) 를 구하고, (\mathcal{L}_{\text{OT}} = \langle P, C\rangle) 를 최소화한다. 이 과정은 “관계 구조 전이”를 실현한다. 즉, 비쌍 샘플들 사이의 상대적 거리 관계가 유지되도록 강제함으로써, 학생 모델이 선형 교사의 거친 정렬을 넘어 미세한 토폴로지를 학습한다. 최적수송은 전역적인 매칭을 제공하므로, 단순히 개별 샘플을 대조하는 기존 손실보다 훨씬 풍부한 신호를 제공한다.
또한, SOTAlign은 정규화 전략을 통해 목표 공간을 과도하게 제약하지 않는다. OT 손실에 (\lambda) 스케일링과 엔트로피 정규화를 결합해 매칭의 희소성을 조절하고, 학습 초기에 높은 엔트로피로 탐색을 장려한다. 이는 비쌍 데이터가 잡음이 많을 경우에도 안정적인 수렴을 보장한다.
실험에서는 COCO‑Captions, Flickr30K, Conceptual Captions 등 다양한 데이터셋을 사용해 교차 모달리티 검색, 이미지‑텍스트 매칭, 제로샷 분류 등 여러 downstream 작업을 평가하였다. 제한된 1 % 쌍 데이터만 사용했음에도 불구하고, 완전 지도 CLIP 대비 평균 46 %의 Recall@1 향상을 기록했으며, 기존 반지도 방법(예: CoCa, UniCL)보다 812 % 높은 성능을 보였다. Ablation 연구에서는 (1) 선형 교사 없이 바로 OT 손실을 적용하면 초기 정렬이 불안정해 성능이 급락하고, (2) 엔트로피 정규화 없이 OT 손실만 사용할 경우 매칭이 과도하게 집중돼 일반화가 저하되는 것을 확인했다.
이러한 설계는 두 가지 중요한 시사점을 제공한다. 첫째, “소량의 정확한 쌍 + 대량의 잡음 섞인 비쌍”이라는 데이터 구성으로도 고품질의 다중모달 임베딩을 학습할 수 있음을 입증한다. 둘째, 최적수송을 활용한 관계 기반 정렬이 대조 손실을 대체하거나 보완할 수 있는 강력한 일반화 메커니즘임을 보여준다. 앞으로는 더 복잡한 비선형 교사, 다중 단계 OT, 혹은 텍스트‑텍스트·이미지‑이미지 간 교차 정렬 등으로 확장 가능성이 기대된다.
**
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...