CLIP을 넘어서는 통합 멀티모달 모델 UniLIP
초록
UniLIP은 CLIP을 재구성 능력과 생성·편집 기능까지 확장한 통합 멀티모달 프레임워크이다. 두 단계 학습과 자체 증류(self‑distillation) 전략으로 CLIP의 이해 성능을 유지하면서 고품질 이미지 복원을 가능하게 하고, MetaQuery 기반의 이중 조건 구조를 도입해 대형 멀티모달 LLM의 추론력을 이미지 생성·편집에 효과적으로 연결한다. 1B·3B 파라미터 규모에도 불구하고 GenEval 0.90, WISE 0.63, ImgEdit 3.94 등 최신 대형 모델을 앞선 성능을 기록한다.
상세 분석
UniLIP은 기존 CLIP 기반 통합 모델이 직면한 두 가지 근본적인 한계를 체계적으로 해결한다. 첫 번째는 “이해 vs 재구성” 트레이드오프이다. CLIP은 이미지‑텍스트 정렬에 최적화돼 고수준 의미 정보를 잘 포착하지만 픽셀 수준의 세부 정보를 거의 제공하지 않는다. 기존 방법은 CLIP 특징을 양자화하거나 고정된 CLIP을 디퓨전 디코더에 조건으로 사용해 재구성을 시도했지만, 양자화는 의미 손실을, 디퓨전 디코더는 픽셀 디테일 부족으로 일관성 없는 결과를 초래한다. UniLIP은 이를 해결하기 위해 두 단계 학습을 도입한다. 1단계에서는 CLIP을 고정하고 픽셀 디코더와 차원 정렬 프로젝션(hϕ)을 학습해 CLIP 내부에 존재하는 미약한 픽셀 신호를 최대한 활용한다. 이때 MSE와 LPIPS 손실을 결합해 전반적인 복원 품질을 끌어올린다. 2단계에서는 CLIP 자체를 미세조정하되, 자체 증류(self‑distillation) 손실 ‖F_orig − F_ft‖²를 추가해 원본 CLIP 특징 분포가 급격히 변하는 것을 억제한다. 학습률을 0.1배로 낮추는 설계와 결합해 의미 보존과 세부 복원 사이의 균형을 정밀하게 맞춘다. 실험 결과 PSNR이 24.9dB까지 상승하고, 이해 지표(MME‑P, TextVQA 등)에서도 기존 Frozen CLIP보다 개선된 점을 확인할 수 있다.
두 번째 핵심 기여는 이중 조건 구조이다. 기존 MetaQuery나 DreamLLM은 고정된 수량(64~256)의 쿼리 토큰만을 디퓨전 트랜스포머에 전달해, 생성 단계에서는 충분히 작동하지만 편집 시 이미지의 풍부한 시각 정보를 충분히 전달하지 못한다. UniLIP은 (1) MLLM의 멀티모달 히든 스테이트와 (2) 학습 가능한 쿼리 임베딩을 동시에 디퓨전 모델에 조건으로 제공한다. 전자는 이미지‑텍스트 정렬된 연속형 CLIP 특징을 그대로 전달해 픽셀‑레벨 디테일을 보존하고, 후자는 LLM이 수행한 고차원 추론 결과(예: “케이크를 두 개로 바꾸라”)를 명시적으로 인코딩한다. 이렇게 함으로써 생성·편집 모두에서 텍스트와 이미지 사이의 정합성을 크게 향상시킨다.
모델 규모는 1B(인코더)와 3B(디퓨전+쿼리) 파라미터로, 기존 7B~12B 모델에 비해 경량화되었음에도 불구하고 GenEval(0.90), WISE(0.63), ImgEdit(3.94)에서 최고 성능을 기록한다. 이는 연속형 CLIP 특징을 직접 복원 가능한 토큰으로 전환하고, LLM과 디퓨전 사이의 정보 손실을 최소화한 설계 덕분이다. 또한 40M 공개 이미지로 사전 학습했음에도 불구하고 높은 텍스트‑이미지 정렬과 편집 일관성을 보여, 데이터 효율성 측면에서도 강점을 가진다.
한계점으로는 1) 자체 증류 손실의 λ 파라미터가 고정값(1)으로 설정돼 있어 다양한 도메인에 대한 민감도 조정이 필요할 수 있다. 2) 현재는 InternViT 기반 CLIP을 사용했지만, 다른 최신 CLIP 변형(SigLIP, CLIP‑ViT‑G)과의 호환성 검증이 부족하다. 3) 편집 실험은 주로 정량적 지표에 의존했으며, 복잡한 구조적 변형(예: 물체 삽입·삭제)에서의 정성적 평가가 추가로 요구된다. 그럼에도 불구하고 UniLIP은 “이해 → 재구성 → 생성·편집”을 하나의 연속형 파이프라인으로 통합한 최초의 시도 중 하나이며, 멀티모달 대형 모델의 파라미터 효율성을 크게 개선한 점에서 학계·산업 모두에 큰 파급 효과를 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기