디퓨전 기반 잠재 보상 모델로 VLM 비용 절감과 정렬 효율 향상

디퓨전 기반 잠재 보상 모델로 VLM 비용 절감과 정렬 효율 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 VLM 기반 보상 함수의 높은 연산·메모리 비용과 픽셀‑공간·잠재공간 불일치를 해결하고자, 노이즈‑보정 Thurstone 가능성을 도입한 디퓨전‑네이티브 잠재 보상 모델 DiNa‑LRM을 제안한다. 사전 학습된 잠재 디퓨전 백본에 타임스텝 조건화 보상 헤드를 추가하고, 추론 시 다중 노이즈 단계 앙상블을 통해 테스트‑시간 스케일링과 안정성을 제공한다. 이미지 정렬 벤치마크와 선호 최적화 실험에서 기존 디퓨전 보상 대비 크게 향상되었으며, VLM 수준의 성능을 훨씬 낮은 비용으로 달성한다.

상세 분석

DiNa‑LRM은 기존 VLM‑기반 보상이 겪는 두 가지 근본적인 문제, 즉(1) 고비용의 픽셀‑공간 연산과(2) 잠재‑디퓨전 생성기와 픽셀‑공간 보상 사이의 도메인 불일치를 직접적으로 해결한다. 이를 위해 저자들은 디퓨전 모델이 본래 학습하는 노이즈‑첨가된 상태(x_t)를 그대로 활용하는 ‘디퓨전‑네이티브’ 접근법을 채택한다. 핵심 아이디어는 Thurstone 모델을 확장해 비교 불확실성을 노이즈 레벨 σ(t)와 선형적으로 연결하는 것이다. 구체적으로 σ_u²(t)=k·σ²(t)+σ_u² 로 정의해, 타임스텝이 커질수록 인간 판단의 불확실성이 증가함을 수학적으로 모델링한다. 이 설계는 (i) 디퓨전 사전학습과 입력 분포를 일치시켜 학습 안정성을 높이고, (ii) 타임스텝‑조건화 보상 함수를 통해 추론 시 저노이즈 단계 혹은 다중 단계 앙상블을 자유롭게 선택하게 함으로써 테스트‑시간 스케일링을 가능하게 한다.

아키텍처 측면에서 DiNa‑LRM은 SD3.5‑Medium 같은 대형 잠재 디퓨전 백본을 그대로 사용하고, VAE 잠재공간을 고정한다. 선택된 여러 레이어의 시각·텍스트 토큰을 FiLM 방식으로 타임스텝 임베딩에 맞게 변조한 뒤, 차원을 축소하고 Q‑Former(쿼리 트랜스포머)와 가벼운 MLP로 스코어링한다. Q‑Former는 학습 가능한 N_q 개의 쿼리 토큰을 통해 시각·텍스트 토큰을 교차‑어텐션하고, 이후 시각 전용 어텐션을 거쳐 최종 스칼라 보상을 출력한다. 이 구조는 (1) 다중 타임스텝 특징을 하나의 긴 토큰 시퀀스로 결합해 노이즈 앙상블을 자연스럽게 지원하고, (2) 파라미터 효율성을 유지하면서도 VLM 수준의 표현력을 확보한다는 장점을 가진다.

학습 목표는 기존 선호 학습에서 사용되는 fidelity loss를 그대로 차용하되, 타임스텝 분포 q(t)를 uniform 혹은 logit‑normal 등으로 샘플링한다. 실험에서는 uniform 샘플링이 가장 안정적이며, 고정 타임스텝은 민감도가 높아 실용성이 떨어진다. 또한, k와 σ_u 하이퍼파라미터는 k=2, σ_u=0 으로 설정해 노이즈‑보정 효과를 극대화한다.

성능 평가에서는 이미지‑텍스트 정렬(예: COCO‑Captions, Flickr30k) 및 인간 선호 데이터셋에서 기존 디퓨전‑기반 보상(PickScore‑Diffusion 등) 대비 크게 높은 정확도와 AUC를 기록한다. 특히 VLM 기반 보상(예: CLIP‑Score, BLIP‑Score)과 비교했을 때, DiNa‑LRM은 30%~50% 적은 FLOPs와 메모리 사용량으로 비슷하거나 약간 높은 성능을 달성한다. 선호 최적화 실험에서는 DiNa‑LRM을 보상으로 사용한 Direct Preference Optimization(DPO)과 RL‑기반 GRPO가 수렴 속도가 빠르고, 동일 학습 단계에서 더 높은 인간 선호 비율을 보였다.

전체적으로 이 논문은 디퓨전 모델 자체가 가진 풍부한 표현력을 보상 모델에 직접 활용함으로써, VLM 의존성을 탈피하고 비용‑효율적인 정렬 파이프라인을 제시한다. 노이즈‑보정 Thurstone 모델과 타임스텝‑조건화 아키텍처는 향후 다양한 멀티‑모달 정렬 및 강화학습 시나리오에 적용 가능성을 열어준다.


댓글 및 학술 토론

Loading comments...

의견 남기기