시간과 그룹을 넘어 가치를 묻다: 흐름 매칭 모델 정렬의 새로운 지평
초록
이미지 생성 모델의 정렬(Alignment)에 효과적이라고 알려진 GRPO(Group Relative Policy Optimization) 방법론을 흐름 매칭 기반 생성 모델에 적용할 때 발생하는 두 가지 근본적인 문제를 해결하는 VGPO(Value-Anchored Group Policy Optimization)를 제안합니다. 첫째, 모든 생성 단계에 동일한 최종 보상을 적용하는 기존 방식은 초기 구조 형성과 후기 세부 조정 단계의 중요도 차이를 무시합니다. 둘째, 그룹 내 상대적 보상에만 의존하면 학습이 수렴되면서 최적화 신호가 사라져 정체에 빠집니다. VGPO는 시간 축에 따른 누적 보상 메커니즘(TCRM)과 절대적 가치를 활용한 적응형 듀얼 어드밴티지 추정(ADAE)을 통해 정확한 가치 평가와 안정적인 최적화를 동시에 이루어, 최고 수준의 이미지 품질과 작업 정확도를 달성합니다.
상세 분석
본 논문은 생성형 AI, 특히 흐름 매칭(Flow Matching) 기반 이미지 생성 모델의 정렬(Alignment) 문제에 대한 심층적인 방법론적 개선을 제시합니다. 기존의 GRPO 방식을 그대로 적용했을 때 발생하는 ‘시간적 불일치’와 ‘보상 다양성 의존성’이라는 두 가지 구조적 한계를 날카롭게 지적합니다.
핵심 기여인 TCRM(Temporal Cumulative Reward Mechanism)은 ‘희소한 최종 보상’을 ‘밀집된 과정 인식 보상’으로 변환하는 장치입니다. 기존 방식이 생성이 끝난 이미지에 대한 평가만으로 모든 생성 단계의 행동에 동일한 점수를 매기는 ‘잘못된 신용 할당’ 문제를 야기했다면, TCRM은 각 단계에서 ‘한 단계 ODE 샘플링’을 통해 즉시 완성될 이미지를 예측하고 그에 대한 보상을 ‘즉시 보상’으로 정의합니다. 더 나아가, 단순한 즉시 보상 최적화의 ‘근시안성’을 해결하기 위해 할인된 누적 보상(Q-값)을 추정하여 장기적인 생성 품질을 고려하도록 합니다. 이는 전체 궤적을 롤아웃해야 하는 기존 방법보다 샘플 효율성이 높으며, 생성 과정에서 구조 형성 같은 중요한 결정 단계에 더 큰 가중치를 부여할 수 있게 합니다.
두 번째 기여인 ADAE(Adaptive Dual Advantage Estimation)는 최적화의 동력을 ‘보상의 상대적 차이’에만 의존하는 GRPO의 근본적 취약점을 해결합니다. 학습이 진행되어 모델이 일관되게 고품질 이미지를 생성하면 그룹 내 보상 분산이 0에 가까워져 최적화 신호가 소실됩니다. ADAE는 기존의 그룹 정규화를 대체하여 상대적 어드밴티지와 절대적 보상 값을 적응적으로 융합합니다. 이론적으로 보상 분산이 0이 되면 절대적 보상 최적화로 자동 전환됨을 증명하며, 정체 현상을 근본적으로 방지합니다.
실험 결과, VGPO는 구성적 이미지 생성, 시각적 텍스트 렌더링, 인간 선호도 정렬 등 다양한 벤치마크에서 기존 SOTA 방법(Flow-GRPO, DenseReward 등)을 능가하는 이미지 품질(FID, CLIP Score)과 작업 정확도(예: 텍스트 정확도)를 보였습니다. 이는 제안된 방법이 단순히 보상 점수를 높이는 ‘보상 해킹’ 현상을 완화하면서도 실제 생성 성능을 종합적으로 향상시킨다는 것을 의미합니다. 요약하면, VGPO는 생성 과정의 ‘시간적 동역학’과 최적화의 ‘신호 안정성’이라는 두 차원에서 이론적 틀을 재정의한 의미 있는 진전입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기