멀티모달 이해와 생성의 새로운 패러다임 UniDFlow
초록
UniDFlow는 사전 학습된 비전‑언어 트랜스포머를 기반으로, 이해와 생성 작업을 저‑랭크 어댑터로 분리하고, 이산 흐름 매칭(Discrete Flow Matching) 목표를 통합한 통합 프레임워크이다. 텍스트‑이미지 이해, 텍스트‑투‑이미지 생성, 그리고 레퍼런스 기반 편집·인페인팅을 하나의 확률적 인터페이스로 수행한다. 새로운 시간‑조건화 RMSNorm과 레퍼런스 기반 멀티모달 선호 정렬(mRefDPo) 기법을 도입해 파라미터 간 간섭을 최소화하고, 20 스텝 이하의 빠른 샘플링으로 SOTA 성능을 8개 벤치마크에서 달성한다.
상세 분석
UniDFlow는 기존 멀티모달 모델이 겪는 “이해‑생성 목표 혼합” 문제를 근본적으로 재구성한다. 핵심 아이디어는 사전 학습된 비전‑언어 모델(VLM)을 고정하고, 이해 전용 LoRA 어댑터와 생성 전용 LoRA 어댑터를 별도로 학습함으로써 파라미터 간의 표현 얽힘을 방지하는 것이다. 이를 위해 세 단계 학습 파이프라인을 설계했는데, 첫 단계는 텍스트 정렬 단계로, VLM의 언어 토큰을 이산 흐름 매칭(DFM) 목표에 맞춰 정제한다. 여기서는 KL 정규화를 통해 VLM의 기존 자동회귀 언어 분포와의 일관성을 유지한다. 두 번째 단계는 비전 정렬 단계로, 이미지 토큰을 사전 학습된 이미지 토크나이저로 변환한 뒤, 동일한 DFM 목표를 사용해 시각 토큰 복원을 학습한다. 이때 이해 어댑터는 고정하고 생성 어댑터만 업데이트한다는 점이 핵심이다. 세 번째 단계는 레퍼런스 기반 멀티모달 선호 정렬(mRefDPo)이다. 동일한 프롬프트와 레퍼런스 이미지 쌍에 대해 “좋은” 편집 결과와 “나쁜” 편집 결과를 비교 학습함으로써, 상대적 선호를 로그‑라벨 마진 형태로 최적화한다. 이 과정은 파인튜닝 없이도 편집의 충실도와 제어성을 크게 향상시킨다.
시간‑조건화 RMSNorm(TSG‑RMSNorm)도 중요한 기여 중 하나다. 기존 방식은 시간 임베딩을 직접 어텐션이나 MLP에 더했지만, 이는 사전 학습된 가중치 분포를 교란한다. TSG‑RMSNorm은 각 레이어의 RMSNorm 스케일 파라미터를 시간에 따라 조절하는 방식으로, 초기에는 0으로 초기화해 사전 모델을 그대로 보존하면서도 시간 의존성을 부여한다.
실험 결과는 8개의 멀티모달 벤치마크(이미지 이해, 텍스트‑투‑이미지 생성, 편집 등)에서 기존 최첨단 모델 대비 13%~24%의 상대적 향상을 보였으며, 특히 파라미터가 3배 이상 큰 모델 대비 효율성을 입증했다. 또한 제로샷 설정에서 인페인팅, 컨텍스트 기반 이미지 생성, 레퍼런스 기반 편집, 조합적 생성 등 다양한 작업을 별도 파인튜닝 없이 수행할 수 있었다.
이러한 설계는 (1) 이해와 생성 사이의 목표 충돌을 완화, (2) 파라미터 효율적인 어댑터 기반 전이 학습, (3) 상대적 선호 정렬을 통한 편집 품질 향상이라는 세 축에서 기존 멀티모달 프레임워크의 한계를 뛰어넘는다. 다만, 현재는 이산 토큰 공간에 의존하기 때문에 고해상도 이미지에 대한 직접적인 스케일업은 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기