텔레부스트 고품질 제어 안정성을 위한 단계별 비디오 생성 정렬 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전학습된 비디오 디퓨전 모델을 실제 서비스에 적합하도록 변환하기 위한 포스트‑트레이닝 파이프라인을 제안한다. 감독 미세조정(SFT)으로 기본 정책을 안정화하고, 그룹 기반 강화학습(GRPO)으로 지각 품질·시간 일관성을 향상시킨 뒤, 인간 선호 기반 직접 최적화(DPO)로 전반적인 의미·시각적 완성도를 정교화한다. 피드백의 불확실성·비용·편향을 고려한 설계 원칙을 통해 각 단계가 순차적으로 문제를 해결하도록 구성한다.

상세 분석

TeleBoost는 비디오 생성 모델의 포스트‑트레이닝을 “단계별 최적화 파이프라인”으로 재구성함으로써 기존 연구가 제시한 단일 RL 혹은 미세조정 접근법의 한계를 극복한다. 첫 번째 단계인 Supervised Fine‑Tuning(SFT)은 사전학습된 백본에 대해 명령어·제어 신호와 함께 3D 구조 일관성, 물리적 움직임 제약을 통합한다. 여기서 핵심은 “정책 형성”에 중점을 두어, 모델이 허용 가능한 행동 공간을 명확히 정의하고, 롤아웃 중 발생할 수 있는 기하학적 붕괴나 물리 법칙 위반을 사전에 억제한다는 점이다.

두 번째 단계인 Group‑based Reinforcement Learning with Relative Optimization(GRPO)은 SFT에서 얻은 안정적인 정책을 기준으로, 동일 프롬프트 그룹 내 샘플 간 상대적 비교를 통해 보상을 추정한다. 절대값 평가자가 불안정하거나 편향될 위험이 큰 비디오 도메인에서, 상대적 비교는 평가 신호의 분산을 크게 감소시킨다. 또한, 피드백 신뢰도에 따라 가중치를 동적으로 조정하고, 시공간 구조에 맞는 손실을 선택적으로 적용함으로써 “구조적 정렬”과 “적응성”을 동시에 만족한다.

세 번째 단계인 Direct Preference Optimization(DPO)은 인간 라벨러가 제공한 쌍별 선호 데이터를 이용해, 정량화하기 어려운 전반적 품질(예: 스토리텔링, 감성 일관성)을 직접 모델에 반영한다. DPO는 기존 RL 단계에서 이미 확보된 저‑레벨 품질과 안정성을 바탕으로, 고차원적인 의미적 일치를 미세하게 조정한다.

전체 파이프라인은 “피드백 신뢰성”, “학습 신호의 구조적 정렬”, “학습 진행에 따른 적응성”이라는 세 가지 설계 원칙을 일관되게 적용한다. 특히, 비디오 롤아웃 비용이 높고 평가 신호가 잡음이 많으며, 프롬프트가 다중 해석을 허용하는 상황에서, 단계별 진단과 교차 검증을 통해 불안정성을 조기에 차단한다는 점이 혁신적이다. 이러한 구조는 대규모 서비스 환경에서의 확장성, 안정성, 그리고 지속 가능한 개선 루프를 제공한다.

텔레부스트 고품질 제어 안정성을 위한 단계별 비디오 생성 정렬 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기