멀티모달 단일 롤아웃 학습 효율성 향상: MSSR (Multimodal Stabilized Single‑Rollout) 소개

읽는 시간: 6 분
...

📝 Abstract

proj.github.io (a) Training accuracy 50% Fewer Steps (b) Validation accuracy (c) Generalization performance Figure 1. Performance overview of MSSR: (a-b) Training and validation accuracy of MVSR (Multimodal Vanilla Single-Rollout), GRPO [28] and our MSSR, trained on the Vision-R1-RL [15] training set and validated on its corresponding validation set. MSSR remains stable and improves steadily, whereas MVSR is unstable and collapses. Notably, MSSR reaches a similar final validation accuracy to GRPO with half of the training steps, highlighting its superior training compute efficiency. (c) Our MSSR achieves higher generalization performance across diverse multimodal reasoning benchmarks, including MathVerse [40], MathVista [23], MMK12 [26], R1-Onevision-Bench [37], and HallusionBench [12], compared to other baselines including GRPO [28], RLOO [1], and REINFORCE++ [14]. For fair comparisons, we have equivalent total number of rollouts per step for all methods.

💡 Analysis

**

1. 연구 배경 및 동기

  • RLVR 은 인간 피드백 대신 자동 검증 가능한 정답 신호를 사용해 LLM/MLLM을 정렬한다는 점에서 비용‑효율적인 학습 방법으로 주목받고 있다.
  • 멀티모달 환경에서는 시각‑언어 인코더가 무거워, 다중 롤아웃(그룹 기반) 방식이 연산량을 급증시킨다.
  • 기존 텍스트‑전용 단일 롤아웃 연구(

📄 Content

안정적이고 효율적인 단일 롤아웃 강화학습을 통한 멀티모달 추론
Rui Liu¹,²˙, Dian Yu¹, Lei Ke¹, Haolin Liu³, Yujun Zhou⁴, Zhenwen Liang¹,
Haitao Mi¹, Pratap Tokekar², Dong Yu¹

¹ 텐센트 AI Lab, 벨뷰 2 메릴랜드 대학교, 컬리지 파크 3 버지니아 대학교 4 노틀담 대학교

프로젝트 페이지: https://mssr-proj.github.io


그림 1. MSSR 성능 개요

(a) 훈련 정확도 (b) 검증 정확도 (c) 일반화 성능

(a–b) Vision‑R1‑RL[15] 훈련 세트에서 학습하고 해당 검증 세트에서 검증한 MVSR(멀티모달 바닐라 단일‑롤아웃), GRPO[28] 및 우리 MSSR의 훈련·검증 정확도. MSSR은 안정적으로 지속적으로 개선되는 반면, MVSR은 불안정하고 붕괴한다. 특히 MSSR은 훈련 단계가 절반에 불과함에도 GRPO와 비슷한 최종 검증 정확도에 도달해 훈련 연산 효율성이 뛰어남을 보여준다. (c) MSSR은 MathVerse[40], MathVista[23], MMK12[26], R1‑Onevision‑Bench[37], HallusionBench[12] 등 다양한 멀티모달 추론 벤치마크에서 GRPO[28], RLOO[1], REINFORCE++[14] 등 기존 베이스라인보다 높은 일반화 성능을 기록한다. 공정한 비교를 위해 모든 방법에 대해 단계당 동일한 총 롤아웃 수를 사용하였다.


초록

검증 가능한 보상을 이용한 강화학습(RLVR)은 멀티모달 대형 언어 모델(MLLM)의 추론 능력을 향상시키는 핵심 패러다임으로 자리 잡았다. 그러나 GRPO와 같은 기존의 그룹 기반 알고리즘은 프롬프트당 다중 롤아웃 샘플링을 필요로 한다. 텍스트 전용 환경에서 최근 효율적인 단일 롤아웃 변형이 탐색되었지만, 우리는 멀티모달 상황에서 이들이 심각한 불안정성을 보이며 훈련이 쉽게 붕괴된다는 것을 발견했다.

훈련 효율성과 안정성 사이의 트레이드‑오프를 해소하기 위해, 우리는 **MSSR(멀티모달 안정화 단일‑롤아웃)**이라는 그룹‑프리 RLVR 프레임워크를 제안한다. MSSR은 엔트로피 기반 이점(advantage) 형태 변형 메커니즘을 통해 이점 크기를 적응적으로 정규화함으로써 붕괴를 방지하고 훈련 안정성을 유지한다. 이러한 메커니즘은 기존 그룹 기반 RLVR에서도 사용되었지만, 멀티모달 단일‑롤아웃 환경에서는 단순히 유용한 수준을 넘어 안정성을 위해 필수적임을 보인다.

인턴십 기간 동안 텐센트 AI Lab, 벨뷰에서 수행한 작업

인‑분포 평가에서 MSSR은 훈련 연산 효율성이 뛰어나, 그룹 기반 베이스라인과 동일한 검증 정확도를 절반의 훈련 단계만에 달성한다. 동일한 단계 수로 훈련했을 때 MSSR은 그룹 기반 베이스라인을 능가하고, 다섯 개의 다양한 추론‑집중 벤치마크 전반에 걸쳐 일관된 일반화 향상을 보여준다. 이러한 결과는 MSSR이 복잡한 멀티모달 추론 작업에 대해 안정적이며, 연산 효율적이고, 효과적인 RLVR을 가능하게 함을 입증한다.


1. 서론

강화학습(RL) 파인튜닝은 대형 언어 모델(LLM) 및 멀티모달 대형 언어 모델(MLLM)을 인간 선호와 정렬시키는 핵심 기술이 되었다. 초기 시도인 인간 피드백 기반 강화학습(RLHF)[3,27]은 모델을 인간이 선호하는 행동으로 최적화해 정렬성과 성능을 크게 향상시켰다. 최근에는 검증 가능한 보상을 이용한 강화학습(RLVR)[8,9,13,18,24,43,44]에 관심이 집중되고 있다. RLVR은 인간 피드백을 자동으로 검증 가능한 정답 신호로 대체한다. 이러한 이진 보상은 모델이 객관적인 감독으로 직접 학습하도록 하며, 멀티모달 추론[2,10,15,19,21,31,39]에 성공적으로 적용되고 있다.

그럼에도 불구하고 멀티모달 RLVR은 여전히 몇 가지 핵심 과제에 직면한다. 대부분의 방법은 입력당 다수의 롤아웃을 생성해야 한다. 대표적인 GRPO[28]와 같은 방법은 상대 이점을 추정하기 위해 여러 롤아웃을 필요로 하며, 이는 비전·언어 인코더를 여러 번 순전파해야 하는 큰 연산 비용을 초래한다. 특히, 한 그룹 내 모든 롤아웃이 동일한 결과(전부 정답 혹은 전부 오답)를 보이면 상대 이점이 0이 되어 학습 신호가 사라지고, 롤아웃 활용 효율이 급격히 감소한다[38].

핵심 질문: 멀티모달 RLVR을 연산 효율적이면서도 안정적으로 만들 수 있을까? 정확도를 희생하거나 감소시키지 않으면서 말이다.

우리는 **MSSR(멀티모달 안정화 단일‑롤아웃)**을 제안한다. MSSR은 입력당 하나의 롤아웃만을 요구함으로써 연산 효율성을 크게 높이고, 동시에 안정적인 최적화를 목표로 한다. 텍스트 전용 환경에서 단일‑롤아웃 RLVR이 최근 탐구되었지만[4,36], 이를 멀티모달 추론에 적용하는 것은 훨씬 더 어려운 문제다. 고차원 이미지 입력이 추가되면서 입력 변동성이 크게 증가하고, 교차‑모달 크레딧 할당이 복잡해지기 때문이다[11,21]. 실험 결과, 텍스트 전용 RLVR에서 성공한 단순 단일‑롤아웃 전략은 멀티모달 상황에서는 불안정한 학습조기 최적화 붕괴를 초래한다는 것이 확인되었다.

우리는 기존 텍스트 전용 단일‑롤아웃 RLVR 공식[4,36]을 멀티모달 영역으로 일반화한다. 구체적으로, 각 멀티모달 입력에 대해 하나의 롤아웃을 생성하고, 이진 보상을 베르누이 확률 변수로 모델링한다. 이점(advantage) 계산을 위한 베이스라인은 베타 분포[16,25]를 사용해 추정한다. 또한 배치‑단위 정규화를 적용해 이점 추정의 분산을 감소시킨다. 그러나 이 설정만으로는 불안정을 완전히 해소하지 못한다. Figure 1의 MVSR에서 보듯, 훈련이 진행될수록 추론 정확도가 급격히 저하된다.

이를 해결하기 위해 우리는 **엔트로피 기반 이점 형태 변형(entropy‑based advantage shaping)**을 도입한다. 이 메커니즘은 모델 출력 엔트로피에 따라 이점 크기를 정규화해, 탐색을 균형 있게 유지하고 멀티모달 훈련을 안정화한다. Figure 1에 나타난 MSSR의 동작이 이를 잘 보여준다.

추가적인 실험을 통해, 다른 비트리비얼 전략—예를 들어 텍스트 전용 분기(branch)를 활용한 교차‑모달 정규화[17] 혹은 KL 정규화, 엔트로피 손실[6,33] 등—은 최적화 붕괴를 방지하는 데 충분하지 않음을 확인했다. 기존 연구[6,7,21]에서는 그룹 기반 RLVR에 엔트로피 형태 변형을 적용했지만, 우리는 멀티모달 단일‑롤아웃 상황에서는 이 메커니즘이 필수적임을 실증한다. 그룹 내부 정규화가 없을 경우 변동성이 크게 증폭되므로, 엔트로피 형태 변형이 없으면 학습이 쉽게 불안정해진다.

우리 접근법을 검증하기 위해 Qwen2.5‑VL‑3B 및 7B 모델[2]을 Vision‑R1‑RL 데이터셋[15]으로 학습시켰다. 결과는 다음과 같다.

  1. 연산 효율성: MSSR은 강력한 그룹 기반 베이스라인인 GRPO보다 훈련 단계가 절반에 불과하면서도 동일한 최종 검증 정확도를 달성한다(그림 1).
  2. 일반화 성능: MSSR‑학습 정책은 다섯 개의 다양한 수학·일반 도메인 멀티모달 추론 벤치마크—MathVerse[40], MathVista[23], MMK12[26], R1‑Onevision‑Bench[37], HallusionBench[12]—에서 일관된 개선을 보이며, 3B와 7B 모델 모두에서 각각 평균 2.1 %, **2.3 %**의 정확도 상승을 기록한다(표 1).

주요 기여

  • 멀티모달 추론을 위한 단일‑롤아웃 RLVR의 체계적 연구를 수행하고, 텍스트 전용 설정에 비해 안정성을 저해하는 핵심 요인을 규명하였다.
  • MSSR을 제안하여, 그룹‑프리 단일‑롤아웃 RLVR이 안정적이면서 연산 효율적으로 다섯 개 벤치마크 전반에서 그룹 기반 베이스라인을 능가하도록 만들었다.
  • 다양한 대안적 방법과의 광범위한 **소거 실험(ablation)**을 통해, 엔트로피 기반 이점 형태 변형이 여러 강력한 대안 중 가장 효과적인 안정화 전략임을 입증하였다.

2. 관련 연구

멀티모달 RLVR

검증 가능한 보상을 이용한 강화학습(RLVR)은 LLM의 추론 능력을 크게 향상시키는 것으로 입증되었다[8,13,18,24,44]. 최근 멀티모달 커뮤니티는 이 패러다임을 MLLM에 확장하여, 시각·텍스트 양쪽 모두에서 검증 가능한 보상이 추론을 개선한다는 사실을 보여주었다[5,10,15,19,21,26,31,33].

이러한 연구는 비전‑그라운드 프롬프트[15], 시각 입력을 활용한 텍스트 추론 확장[37], 정책 프레임워크 내 시각·텍스트 신호 통합[5] 등 다양한 전략을 탐색한다. 예를 들어, 일부 접근법은 모델이 시각적으로 근거가 있는 응답을 생성하도록 유도하고, 두‑브랜치 설계에서 발생하는 훈련 불안정을 완화하기 위해 이중 엔트로피 손실을 적용한다[33].

다른 연구들은 시각적 인식·언어 추론을 분리하여 시각적 근거를 강화하고 환각을 감소시키는 프레임워크[19], 계층적 시각 추상화를 통한 RL‑가이드 플래닝[26], 시각적 불확실성을 활용한 탐색[21] 등을 제안한다. 또한 대규모 시각 지시 튜닝을 통해 교차‑모달 일반화를 향상시키는 시도[10]와 반복적 시각 반영을 통한 추론 정교화[31]도 진행되고 있다.

하지만 현재 멀티모달 RLVR 방법은 그룹 기반 최적화에 크게 의존한다는 한계가 있다. 그룹 기반 방법은 효과적이지만, 연산 효율성에 큰 부담을 준다. 각 입력에 대해 다수의 응답을 생성해야 하므로 비전·언어 인코더를 여러 번 순전파해야 하며, 특히 대형 멀티모달 모델에서는 비용이 급증한다. 또한, 그룹 내 모든 롤아웃이 동일한 결과를 낼 경우 롤아웃 활용 효율이 크게 떨어진다[

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키