생성형 트랜스포머 기반 자가지도 비디오 평가 모델 GT SVJ
초록
GT‑SVJ는 최신 비디오 생성 모델을 에너지 기반 모델(EBM)로 재구성해, 영상 품질을 평가하는 보상 모델로 전환한다. 실시간 프레임 순서, 프레임 드롭, 노이즈 삽입, 패치 교환, 시간 슬라이스 교환 등 다양한 잠재공간 교란을 이용해 어려운 음성 샘플을 만든 뒤, 대조 학습으로 시공간적 특징을 학습한다. 30 K 정도의 인간 선호 데이터만으로 기존 VLM 기반 방법보다 6~65배 적은 데이터로 GenAI‑Bench와 MonteBench에서 최고 성능을 달성한다.
상세 분석
GT‑SVJ는 비디오 생성 모델이 이미 시간적 의존성을 학습한다는 점에 착안해, 이를 보상 모델로 활용한다는 근본적인 아이디어를 제시한다. 핵심은 사전학습된 CogVideoX와 같은 트랜스포머 기반 생성기를 에너지 기반 모델(EBM) 형태로 변환해, 낮은 에너지는 고품질 영상을, 높은 에너지는 저품질 영상을 의미하도록 하는 것이다. 이를 위해 논문은 대조 손실 L₍contrast₎ = L_EBM + β L₂ 형태의 목표함수를 정의하고, 실제 비디오와 생성·교란 비디오를 각각 양성·음성 샘플로 사용한다.
음성 샘플 생성 전략이 가장 혁신적이다. 단순히 생성된 비디오만을 음성으로 삼으면 도메인 간 격차(예: 색감, 노이즈)만 학습하게 되지만, GT‑SVJ는 잠재공간(z)에서 다섯 가지 교란을 적용한다. ① 프레임 셔플은 시간 순서를 뒤섞어 움직임 연속성을 깨뜨리고, ② 프레임 드롭은 비연속적인 프레임을 삽입해 프레임 레이트 불균형에 강인하게 만든다. ③ 노이즈 구간 삽입은 국소적인 손상을 모방해 전역적인 시간 일관성을 유지하도록 유도한다. ④ 패치 스와프는 두 시간 구간 사이에 공간 영역을 교환해 객체 궤적을 왜곡하고, ⑤ 시간 슬라이스 스와프는 긴 구간의 순서를 뒤바꿔 장기 동작 흐름을 파악하도록 강제한다. 이러한 교란은 모두 영상의 시각적 외관은 크게 변하지 않으면서도 미묘한 시공간적 불일치를 만든다.
모델 구조 측면에서는 CogVideoX의 트랜스포머 레이어 중 마지막 1/3에 LoRA 어댑터를 삽입해 파라미터 효율성을 높였다. 잠재 표현을 입력받아 경량 MLP 헤드가 시간별 스칼라 값을 출력하고, 이를 에너지로 해석한다. 대조 학습 단계에서 얻어진 판별 모델은 이후 인간 선호 데이터(30 K 쌍)를 이용해 Bradley‑Terry 혹은 BTT 손실로 미세조정되어 최종 보상 함수 r_ϕ(x)를 만든다.
실험 결과는 두 가지 주요 벤치마크에서 기존 VLM 기반 방법을 크게 앞선다. GenAI‑Bench에서는 평균 25 % 향상, MonteBench에서는 3~8 % 상승을 기록했으며, VideoReward‑Bench에서도 경쟁력 있는 성능을 보였다. 특히 데이터 효율성 측면에서 VLM은 수백만 개의 선호 쌍을 필요로 하는 반면, GT‑SVJ는 30 K 정도만으로 동일하거나 더 나은 결과를 얻었다. 이는 시공간적 특징을 직접 학습함으로써 인간 선호를 더 정확히 포착했기 때문이다.
한계점으로는 교란 전략이 아직 휴리스틱에 기반하고 있어, 특정 도메인(예: 고속 스포츠)에서는 충분히 어려운 음성을 만들지 못할 수 있다. 또한 EBM 학습 시 파티션 함수 근사와 샘플링 비용이 존재하지만, LoRA와 잠재공간 교란을 활용해 실용적인 수준으로 억제했다. 향후 연구에서는 교란을 자동화하고, 멀티모달 텍스트‑비디오 선호를 동시에 학습하는 확장 모델을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기