디아이쓰리피오: 디프틱 이미지 쌍으로 텍스트 렌더링을 정밀 개선하는 새로운 DPO 기법
초록
**
Di3PO는 디프틱(Diptych) 프롬프트를 활용해 배경은 동일하고 텍스트만 차이가 나는 이미지 쌍을 자동 생성한다. 이렇게 만든 최소 차이의 긍정·부정 쌍을 DPO 학습에 사용함으로써 텍스트‑투‑이미지 모델의 텍스트 렌더링 품질을 기존 SFT와 일반 DPO 대비 크게 향상시킨다.
**
상세 분석
**
본 논문은 텍스트‑투‑이미지(T2I) 확산 모델의 선호 튜닝에서 가장 큰 병목인 “시각적 불일치” 문제를 근본적으로 해결한다. 기존 DPO 방식은 서로 다른 시드·배경·구성을 가진 이미지 쌍을 사용해 학습 효율이 낮고, 모델이 실제 개선하고자 하는 속성(예: 글자 형태)보다 배경 차이에 과도하게 집중한다. Di3PO는 두 단계로 이 문제를 해소한다. 첫째, 대형 언어 모델(Gemini 2.5)과 고품질 이미지 생성 모델을 결합해 “디프틱 프롬프트”를 만든다. 하나의 프롬프트에 “같은 배경에 올바른 텍스트와 오탈자 텍스트를 각각 좌·우 패널에 배치하라”는 지시를 포함시켜, 배경은 완전히 동일하고 텍스트만 달라지는 두 이미지를 동시에 생성한다. 둘째, 자동 검증 단계에서 멀티모달 모델이 배경 동일성 및 텍스트 차이를 평가해 신뢰도 점수가 높은 쌍만을 선별한다. 이렇게 확보된 쌍은 DPO 학습 시 동일한 노이즈와 타임스텝을 공유하므로, 손실 함수의 그래디언트가 배경 영역에서는 거의 상쇄되고 텍스트 영역에만 집중된다. 논문은 이를 수식적으로 전개해, ∇θL_DPO ≈ −w·∇θ‖ε−εθ(x_w)‖² + w·∇θ‖ε−εθ(x_l)‖² 형태에서 배경 영역의 기여가 0이 됨을 증명한다. 결과적으로 신호‑대‑노이즈 비가 크게 향상돼 적은 학습 샘플(300쌍)로도 텍스트 렌더링 정확도가 눈에 띄게 상승한다. 실험에서는 SDXL‑1.0과 SD3 모델을 900스텝, 학습률 3×10⁻⁸로 미세조정했으며, 기존 SFT와 일반 DPO 대비 OCR 기반 텍스트 정확도와 시각적 일관성에서 모두 우수한 성능을 보였다. 한계점으로는 디프틱 쌍을 생성할 수 있는 기본 T2I 모델이 필요하고, 오탈자 생성이 모델‑특정 편향에 의존한다는 점을 언급한다. 향후 연구에서는 다양한 속성(색상, 구조 등)으로 확장하고, 자동 오탈자 생성 전략을 일반화하는 방향을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기