다중 생성기 앙상블 완전 합성 비전 언어 학습

다중 생성기 앙상블 완전 합성 비전 언어 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PolyGen은 서로 다른 텍스트‑투‑이미지 생성기들을 동시에 활용해 합성 이미지‑텍스트 쌍을 만든 뒤, 프로그램적으로 만든 하드 네거티브와 커리큘럼 스케줄러를 결합한 대비 학습으로 VLM을 훈련한다. 단일 생성기 기반 합성 데이터의 스펙트럼 편향을 제거하고, 다양성과 인식성을 동시에 확보함으로써 기존 SynthCLIP 대비 다중 과제에서 평균 19 %·SugarCrepe++에서 9 %의 성능 향상을 달성한다.

상세 분석

PolyGen은 “Generator‑Invariance Hypothesis”를 핵심 전제로 삼는다. 즉, 서로 다른 아키텍처와 훈련 목표를 가진 텍스트‑투‑이미지 모델(Stable Diffusion 1.5, Stable Diffusion 2, SD XL‑Turbo, SANA)을 동시에 사용해 동일한 캡션에 대해 다중 시각화를 생성함으로써, 각 모델이 내재한 주파수‑특징, 압축 아티팩트, 스타일 편향 등을 평균화한다. 이 과정에서 모델은 공통된 의미적 신호만을 학습하게 되며, 이는 기존 단일 생성기 기반 데이터가 남기는 “Synthetic Gap”를 크게 완화한다.

데이터 구성 단계에서는 메타CLIP Concept Bank에서 개념을 샘플링하고, Mistral‑V0.2‑7B를 이용해 속성‑조건부 캡션(T⁺)을 만든다. 이후 LLaMA 3.1‑8B가 동일한 속성 축을 고정하고 개념만 교체하는 방식으로 하드 네거티브 캡션(T⁻)을 생성한다. 이렇게 구조화된 캡션 쌍은 의미적 일관성을 유지하면서도 미세한 의미 변화를 제공한다는 점에서 기존 무작위 부정 예시보다 학습 효율이 높다.

다중 긍정 대비 학습에서는 각 캡션에 대해 n⁺ = 4개의 이미지가 존재하므로, 전통적인 InfoNCE 대신 Multi‑Positive Objective를 적용한다. 텍스트와 이미지 사이의 확률 질량을 균등하게 분배함으로써, 텍스트 임베딩이 다양한 시각적 변형의 중심에 정렬된다. 추가적으로 이미지‑이미지 대비 손실(L_I2I)을 도입해 동일 캡션 내 이미지 간의 유사성을 강제하고, 생성기‑특유의 스펙트럼 신호를 억제한다.

하드 네거티브는 TripletCLIP 손실을 통해 명시적으로 구분된다. 초기 학습 단계에서는 하드 네거티브 비율 p를 0에서 0.5까지 선형 증가시키는 커리큘럼 스케줄러를 적용해, 모델이 먼저 거친 의미적 클러스터를 형성한 뒤 미세한 속성 차이를 학습하도록 설계했다. 이는 학습 불안정을 방지하고, 최종적으로 속성‑바인딩·공간‑관계·객체‑관계와 같은 복합 추론 능력을 크게 향상시킨다.

실험 결과는 PolyGen이 SynthCLIP 대비 다중 과제(이미지‑텍스트 검색, 제로‑샷 분류, 이미지 캡셔닝 등)에서 평균 19 %의 상대적 개선을 보였으며, 특히 SugarCrepe++와 같은 조합성 벤치마크에서 9 %p 상승을 기록했다. 이는 구조적 다양성이 단순 데이터 양 확대보다 더 효율적인 스케일링 법칙임을 실증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기