이미지 생성용 흐름 매칭 적대적 모방 학습

이미지 생성용 흐름 매칭 적대적 모방 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 흐름 매칭(Flow Matching) 기반 이미지 생성 모델의 사후 정렬을 모방 학습 문제로 재구성하고, 이를 적대적 방식으로 해결하는 FAIL(FLOW Matching Adversarial Imitation Learning) 프레임워크를 제안한다. 두 가지 알고리즘, 미분 가능한 ODE 솔버를 활용한 저분산 경로 미분(Fail‑PD)과 블랙박스 정책 그라디언트(Fail‑PG)를 설계하여 제한된 전문가 데이터(13 k 이미지)만으로도 FLUX 모델을 크게 향상시킨다. 실험 결과는 프롬프트 충실도와 미학 점수에서 기존 SFT·RLHF 대비 우수함을 보여준다.

상세 분석

FAIL은 사후 정렬(post‑training) 과정을 “전문가 분포와 정책 분포 사이의 제젠쉐인 발산을 최소화하는 적대적 게임”으로 공식화한다. 이때 정책 πθ는 흐름 매칭 모델이 생성하는 연속적인 ODE 기반 샘플링 프로세스를 의미하고, 판별자 Dω는 생성된 이미지와 전문가 이미지 사이를 구분하는 역할을 한다. 기존의 SFT는 행동 복제(Behavioral Cloning)와 동일하게 전문가 샘플을 직접 모방하지만, 상태 공간이 넓어질수록 정책이 전문가 데이터에 없는 영역으로 떠돌아 오류가 누적되는 분포 이동 문제를 안고 있다. 반면 RLHF·DPO와 같은 선호 최적화는 비교 피드백을 통해 정책을 교정하지만, 대규모 선호 쌍과 정교한 보상 모델이 필요해 비용이 크게 증가한다.

FAIL은 이러한 두 접근법의 단점을 보완한다. 첫 번째 변형인 FAIL‑PD는 흐름 매칭 모델이 ODE 솔버를 통해 미분 가능하다는 점을 활용한다. 구체적으로, 무작위 시간 t를 샘플링하고 단일 디노이징 스텝을 적용해 근사적인 청정 이미지 x′₀을 얻은 뒤, 판별자의 로그‑시그모이드 출력에 대해 직접 경로 미분을 수행한다. 이 방식은 전체 ODE 트래젝터리를 역전파하지 않아도 되므로 메모리와 연산량을 크게 절감하면서도 저분산, 고신호의 그라디언트를 제공한다. 이론적으로는 결정적 정책 그라디언트(Deterministic Policy Gradient)와 동일한 형태이며, GAN의 로컬 수렴 특성을 물려받는다.

두 번째 변형인 FAIL‑PG는 미분이 불가능하거나 대규모 판별자를 사용할 때를 위한 블랙박스 정책 그라디언트이다. 판별자 출력을 스칼라 보상 r(x)=−log(1−σ(Dω(x))) 로 정의하고, REINFORCE‑형식의 스코어 함수 추정기로 정책을 업데이트한다. 여기서는 흐름 매칭의 확률밀도 비를 ELBO 차이(L_CFM)로 근사하고, PPO‑스타일 클리핑 서브시큐어 목표와 KL 제약을 결합한 FPO(Flow Policy Optimization) 절차를 적용한다. 이때 기준 정책(프리트레인된 모델)과의 KL 발산을 명시적으로 제한함으로써 모드 붕괴와 발산을 방지한다.

판별자 설계에서도 세 가지 아키텍처를 실험한다. (1) 시각 기반 사전학습 백본(CLIP, DINO 등)을 활용한 VFM, (2) 흐름 매칭 모델 자체를 재활용한 FM, (3) 텍스트‑이미지 멀티모달 이해가 가능한 VLM(Qwen3‑VL‑2B‑Instruct)이다. 특히 VLM은 프롬프트와 이미지 간 의미 일치를 강화해, 단일 이미지·프롬프트 쌍만으로도 강력한 정렬 신호를 제공한다.

실험에서는 Gemini 3 Pro가 생성한 13 k 프롬프트‑이미지 쌍을 전문가 데이터로 사용한다. FLUX.1‑dev 모델을 베이스로, FAIL‑PD는 UniGen‑Bench 점수를 61.61→73.70, DPG‑Bench을 84.15→87.32 로 끌어올렸다. 이는 동일 데이터로 훈련한 SFT·RLHF보다 현저히 높은 수치이며, 특히 제한된 데이터 상황에서의 데이터 효율성을 강조한다. 또한, FAIL을 기존 RLHF 파이프라인에 삽입하면 보상 해킹 현상이 크게 완화되는 것을 확인했다.

전체적으로 FAIL은 (1) 흐름 매칭 모델의 미분 가능성을 활용한 저분산 경로 미분, (2) 블랙박스 정책 그라디언트 기반의 확장성, (3) 멀티모달 판별자 설계라는 세 축을 통해 사후 정렬을 효율적이고 안정적으로 수행한다는 점에서 기존 SFT·RLHF 패러다임을 보완한다.


댓글 및 학술 토론

Loading comments...

의견 남기기