비디오 대형 언어 모델을 위한 난이도 인식 회귀형 GRPO 기반 강화학습
초록
DeepVideo‑R1은 비디오 대형 언어 모델(VideoLLM)의 추론 능력을 강화하기 위해 GRPO를 회귀 형태로 재구성한 Reg‑GRPO와 난이도‑인식 데이터 증강을 결합한 학습 프레임워크이다. 기존 GRPO가 필요로 하던 클리핑·최소값 등 안전장치를 제거하고, 그룹 기반 어드밴티지를 직접 예측하도록 함으로써 그래디언트 소실과 수렴 불안정을 해소한다. 또한 쉬운 샘플은 영상에 잡음을, 어려운 샘플은 보조 추론 힌트를 삽입해 보상 신호의 다양성을 확보한다. SEED‑Bench‑R1, LongVideoBench, NExTGQA 등에서 Qwen2.5‑VL을 크게 앞서는 성능 향상을 입증한다.
상세 분석
본 논문은 비디오LLM에 RL‑based 포스트‑트레이닝을 적용하면서 발생하는 두 가지 핵심 문제, 즉 “안전장치 의존성”과 “어드밴티지 소멸”을 정확히 짚어낸다. 기존 GRPO는 그룹 정규화된 보상을 사용해 정책 업데이트를 안정화했지만, 클리핑·min 연산이 그래디언트를 억제하고, 매우 쉬운 혹은 어려운 샘플에서는 어드밴티지가 0에 수렴해 학습 신호가 사라지는 현상이 있었다. 이를 해결하기 위해 저자들은 GRPO 손실을 회귀 문제로 전환한다. 구체적으로, 정책 네트워크가 출력 토큰 확률뿐 아니라 각 샘플에 대한 그룹 어드밴티지 ˆA(i)를 직접 예측하도록 설계한다. 이때 손실은 L2 회귀 손실이며, 기존 PPO‑style의 비율·클리핑 항을 완전히 배제한다. 결과적으로 정책은 “어드밴티지를 크게 만든다”는 목표를 명시적으로 학습하게 되며, 그래디언트 흐름이 방해받지 않아 수렴 속도가 빨라진다.
두 번째 혁신은 난이도‑인식 데이터 증강이다. 저자는 비디오‑텍스트 쌍을 난이도 수준에 따라 동적으로 변형한다. 쉬운 샘플(어드밴티지 높음)에는 영상에 랜덤 노이즈, 프레임 드롭, 색상 변형 등을 적용해 인위적으로 난이도를 상승시킨다. 반대로 어려운 샘플(어드밴티지 낮음)에는 텍스트에 힌트 문장을 삽입하거나, 영상에 보조 객체 라벨을 제공해 추가적인 추론 단서를 만든다. 이렇게 하면 보상 분포가 보다 균등해져 “어드밴티지 소멸” 현상이 완화되고, 모델이 다양한 난이도에 대해 균형 잡힌 학습을 수행한다.
실험에서는 DeepVideo‑R1을 Qwen2.5‑VL(3B/7B)과 동일한 베이스 아키텍처에 적용했으며, 동일한 RL‑fine‑tuning 파이프라인을 사용해 비교했다. SEED‑Bench‑R1에서 평균 정확도가 10.1%p 상승했으며, LongVideoBench과 NExTGQA에서도 각각 8.6%p, 5.4%p의 유의미한 개선을 보였다. 특히 인‑도메인·아웃‑오브‑도메인 모두에서 성능 격차가 줄어들어 일반화 능력이 강화된 것을 확인할 수 있다.
이 논문의 의의는 세 가지로 정리할 수 있다. 첫째, GRPO를 회귀 형태로 재구성함으로써 RL‑based 포스트‑트레이닝의 안정성을 크게 향상시켰다. 둘째, 난이도‑인식 증강을 통해 보상 신호의 다양성을 확보, 어드밴티지 소멸 문제를 근본적으로 완화했다. 셋째, 비디오LLM이라는 멀티모달 환경에서도 텍스트‑기반 RL 기법이 효과적으로 적용될 수 있음을 실증했다. 향후 연구에서는 (1) 그룹 정의를 더 세분화해 미세 난이도 조정, (2) 비디오 프레임 수준에서의 어드밴티지 예측, (3) 인간 피드백을 결합한 하이브리드 보상 설계 등으로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기