비디오OPD 온정책 증류 기반 효율적 사후 학습
초록
본 논문은 시간 비디오 정착(TVG) 과제에 대해 기존 강화학습 기반 사후 학습 방식이 갖는 보상 희소성과 높은 연산 비용 문제를 해결하고자, 현재 정책으로부터 샘플링한 궤적에 대해 교사 모델이 제공하는 토큰 수준의 밀집 지도(signal)를 역 KL 발산으로 활용하는 온정책 증류 프레임워크인 Video‑OPD를 제안한다. 또한 교사‑학생 불일치를 정량화해 신뢰도 높은 샘플을 우선 학습시키는 커리큘럼 TVDF를 도입해 학습 효율을 더욱 향상시킨다. 실험 결과 Video‑OPD가 기존 GRPO 대비 17% 이상의 성능 향상을 보이며, 수렴 속도와 계산 비용 면에서도 크게 우수함을 입증한다.
상세 분석
Video‑OPD는 TVG에서 멀티모달 대형 언어 모델(MLLM)이 자동 회귀적으로 시간 경계 토큰을 생성하는 과정을 강화학습의 온정책 최적화와 교사‑학생 증류를 결합해 재구성한다. 기존 GRPO는 정책이 생성한 전체 궤적에 대해 하나의 스칼라 보상만을 제공하므로, 각 토큰이 최종 IoU 보상에 기여한 정도를 구분하기 어렵다(credit assignment problem). 이로 인해 그래디언트 분산이 커지고, 긴 시퀀스에서 학습이 느려지는 병목이 발생한다. Video‑OPD는 현재 정책 πθ 로부터 직접 궤적 τ를 샘플링하고, 고정된 프론티어 교사 모델이 동일 입력에 대해 토큰‑레벨 확률 분포를 출력한다. 학생의 로그 확률 log πθ(a_t|s_t)와 교사의 확률 p_T(a_t|s_t)를 이용해 역 KL D_KL(p_T‖πθ) 를 단계별 손실로 정의함으로써, 각 토큰에 대해 밀집된 지도 신호를 제공한다. 역 KL 은 교사의 확률을 학생이 따라가도록 유도하면서도, 학생이 현재 정책에 기반해 샘플링한 궤적을 그대로 사용하므로 온정책 특성을 유지한다. 따라서 정책이 자체 예측에 의해 유도된 상태 분포와 학습 데이터 분포가 일치해 분산 이동(distribution shift) 문제가 크게 완화된다.
TVDF는 교사 모델의 신뢰성을 검증하기 위해 주석된 정답 구간과 교사의 예측 IoU 를 비교한다. 교사가 일정 임계값 이상 정확한 경우에만 해당 샘플을 ‘신뢰 가능’으로 판단하고, 학생과 교사 사이의 역 KL 합계가 큰 궤적을 우선적으로 선택한다. 이는 교사‑학생 불일치가 큰 영역이 학습에 가장 큰 정보량을 제공한다는 가정에 기반한다. 이러한 커리큘럼은 라벨을 직접 손실에 사용하지 않으면서도 라벨 정보를 ‘검증’ 용도로 활용해 샘플 효율성을 높인다.
계산 복잡도 측면에서 Video‑OPD는 GRPO와 달리 다중 롤아웃을 필요로 하지 않는다. 한 번의 온정책 샘플링만으로 충분히 밀집된 손실을 얻을 수 있기 때문에, 비디오 프레임을 반복적으로 인코딩하는 비용이 크게 감소한다. 실험에서는 동일 하드웨어 환경에서 학습 시간과 GPU 메모리 사용량이 약 40%~50% 절감되는 것으로 보고된다.
전체적으로 Video‑OPD는 (1) 온정책 샘플링을 유지하면서 토큰‑레벨 밀집 지도 제공, (2) 역 KL 기반 교사‑학생 증류로 credit assignment 문제 해결, (3) TVDF 커리큘럼으로 라벨 활용 효율 극대화, (4) 다중 롤아웃 제거로 연산 비용 감소라는 네 가지 핵심 혁신을 통해 TVG 사후 학습의 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기