내재 보상으로 이미지 생성 혁신: IRIS 프레임워크

내재 보상으로 이미지 생성 혁신: IRIS 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

IRIS는 텍스트‑투‑이미지 모델의 자체 확신(self‑certainty)을 최소화하는 내재 보상을 이용해 강화학습을 수행한다. 외부 인간 라벨이나 도메인‑특화 평가자를 사용하지 않고도, 모델이 더 풍부하고 상세한 이미지를 생성하도록 유도한다. 실험 결과, IRIS는 기존 외부 보상 기반 방법들을 능가하거나 동등한 성능을 보이며, 다양한 벤치마크에서 이미지 구성·지식·지시 따름 능력을 크게 향상시킨다.

상세 분석

본 논문은 텍스트‑투‑이미지(T2I) 모델이 인간 선호 데이터 없이도 고품질 이미지를 학습할 수 있는 새로운 강화학습(RL) 프레임워크인 IRIS(Intrinsic Reward Image Synthesis)를 제안한다. 핵심 아이디어는 ‘자기 확신(self‑certainty, SC)’이라는 내재 신호를 역으로 활용하는 것이다. 기존 연구에서는 수학·코드와 같은 검증 가능한 작업에서 SC를 최대화하면 성능이 향상된다고 보고했지만, 저자들은 T2I 작업에서는 높은 SC가 오히려 단순하고 균일한 이미지(시각적 다양성 부족)를 초래한다는 현상을 발견했다. 실험적으로, 텍스트‑투‑이미지 모델(Janus‑Pro 1B)의 학습 과정에서 SC가 감소하면 이미지 토큰의 분포가 더 넓게 퍼져 다양한 시각적 요소를 포함하게 된다. 따라서 IRIS는 SC의 부정값(Negative Self‑Certainty, NSC)을 보상으로 정의하고, 이를 최대화하도록 정책을 업데이트한다. 보상 함수는 KL(Uniform‖π) 형태의 전방 KL을 사용해 ‘모드 커버링(mode‑covering)’을 장려함으로써, 하나의 고확률 토큰에 집중하는 대신 여러 가능한 토큰을 골고루 탐색하도록 만든다. RL 최적화는 Group‑wise Relative Policy Optimization(GRPO)을 적용해 여러 후보 이미지·텍스트 시퀀스를 샘플링하고, 각 후보의 NSC 평균을 기준으로 어드밴티지를 계산한다. 중요한 점은 텍스트 토큰에도 동일한 NSC 보상을 적용한다는 점이다. 이는 이미지 생성 전 단계에서 모델이 프롬프트를 풍부하게 설명하도록 유도해, 이후 이미지 토큰이 더 많은 시각적 정보를 담을 수 있게 만든다. 실험에서는 800 k 단계까지 학습한 후 T2I‑CompBench, WISE, TIIF‑Bench(Short/Long) 등 세 가지 벤치마크에서 외부 보상 기반 모델(T2I‑R1)과 비교했을 때, IRIS는 13.3 %~28.8 % 정도의 상대적 성능 향상을 보였다. 특히 외부 보상이 특정 도메인(예: 객체 검출, 인간 미학)으로 모델을 제한하는 반면, IRIS는 모델 자체의 사전 지식을 활용해 일반화 능력을 크게 높인다. 또한, NSC 기반 학습은 ‘Chain‑of‑Thought’(CoT)와 유사한 단계적 사고 흐름을 촉진해, 복잡한 프롬프트에 대한 논리적 이미지 구성을 가능하게 한다. 전체적으로, 본 연구는 내재 보상이 외부 라벨링 비용을 제거하면서도 이미지 생성 품질을 향상시킬 수 있음을 실증적으로 증명한다.


댓글 및 학술 토론

Loading comments...

의견 남기기