합성 피드백으로 확장된 디퓨전 모델 정렬 DeDPO
초록
DeDPO는 제한된 인간 선호 데이터와 대규모 합성 피드백을 결합해 디퓨전 모델을 정렬하는 반자동 방법이다. 인과 추론에서 차용한 디버이즈드 추정기를 DPO 손실에 삽입해 합성 라벨의 편향과 노이즈를 보정한다. 이론적으로 무편향성을 보장하며, 실험에서 인간 라벨만 사용한 경우와 동등하거나 그 이상 성능을 달성한다.
상세 분석
본 논문은 텍스트‑투‑이미지 디퓨전 모델을 인간 선호와 일치시키는 Direct Preference Optimization(DPO)의 확장으로, 라벨이 부족한 상황에서 합성 AI 피드백을 활용하는 새로운 프레임워크인 DeDPO를 제안한다. 핵심 아이디어는 DPO를 이진 분류 문제로 재해석하고, 라벨이 없는 데이터에 대해 저비용 합성 라벨(예: CLIP, VLM, 자체 학습 모델) 을 부여한 뒤, 인과 추론에서 사용되는 ‘두 배로 강건한(Doubly Robust)’ 추정 방식을 적용해 편향을 보정한다. 구체적으로, 전체 손실을 (1) 인간 라벨에 대한 표준 교차 엔트로피, (2) 합성 라벨에 대한 교차 엔트로피, (3) 인간 라벨과 합성 라벨 사이의 차이를 보정하는 교정항으로 구성한다. 이 구조는 합성 라벨이 완벽하거나 전혀 틀리지 않을 경우에도 기대값이 원래 DPO 손실과 동일함을 정리 1·2를 통해 증명한다. 따라서 합성 라벨의 품질에 관계없이 무편향 추정이 가능하며, 라벨이 적을수록 교정항의 가중치가 커져 인간 라벨의 영향력이 증폭된다.
또한, 저자는 두 가지 합성 라벨 생성 방식을 제시한다. 첫 번째는 사전 학습된 비전‑언어 모델(VLM)으로 고정 라벨을 부여하는 방식이며, 두 번째는 현재 모델 자체를 이용한 자기‑학습(self‑training) 방식이다. 자기‑학습에서는 이전 iteration의 파라미터 (\hat\theta) 가 생성한 라벨을 현재 파라미터 (\theta) 가 학습하도록 하며, confidence threshold (\delta) 를 도입해 불확실한 예는 손실에 기여하지 않게 한다. 이러한 설계는 라벨이 부족한 상황에서도 대규모 무라벨 이미지 쌍을 효율적으로 활용하게 만든다.
이론적 분석 외에도, 논문은 실험을 통해 DeDPO가 다양한 합성 라벨 소스(클래스‑프리 가이드, CLIP, Aesthetic 모델 등)와 결합했을 때 인간 라벨만 사용한 DPO와 동등하거나 더 높은 정렬 성능을 보임을 입증한다. 특히, 라벨 1% 수준으로 제한된 인간 데이터와 수십만 개의 합성 라벨을 결합했을 때, 이미지‑텍스트 일치도와 미적 점수에서 기존 최첨단 방법을 능가한다. 이는 DeDPO가 라벨 비용을 크게 절감하면서도 정렬 품질을 유지·향상시킬 수 있음을 시사한다.
마지막으로, DeDPO는 완전 오프라인 학습 파이프라인을 유지하면서도, 샘플 분할(sample splitting)과 같은 인과 추론 기법을 적용해 편향 보정을 수행한다는 점에서 기존의 DPO 변형(라벨 스무딩, DRO 등)과 차별화된다. 이는 디퓨전 모델 정렬에 있어 ‘합성 피드백 + 무편향 보정’이라는 새로운 패러다임을 제시하며, 향후 멀티모달 대규모 모델의 인간‑AI 정렬에 중요한 기반이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기