RL이 SFT보다 일반화가 좋은 이유 VLM 사후학습의 데이터 중심 관점

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비전‑언어 모델(VLM) 사후학습에서 강화학습(RL)이 지도미세조정(SFT)보다 OOD 일반화가 우수한 원인을 데이터 난이도에 초점을 맞춘 데이터‑중심 설명으로 제시한다. RL이 중간 난이도 샘플에만 효과적으로 업데이트되는 ‘암묵적 데이터 필터링’ 역할을 수행한다는 가설을 검증하고, 어려운 샘플을 사전 제거한 Difficulty‑Curated SFT(DC‑SFT)를 제안한다. 실험 결과 DC‑SFT가 RL을 능가하면서도 학습 안정성과 효율성을 크게 향상시킴을 확인하였다.

상세 분석

본 연구는 VLM 사후학습에서 RL이 OOD 일반화에서 지속적으로 SFT를 앞서는 현상을 데이터 난이도 관점에서 재해석한다. 저자들은 먼저 “난이도”를 모델이 생성한 다중 응답(G=8)의 정답 여부에 따라 Easy(모두 정답), Hard(모두 오답), Medium(정답·오답 혼합)으로 정의한다. RL의 정책 최적화 과정에서 보상은 Easy와 Hard 샘플에 대해 거의 일정하게 부여되며, 이 경우 Eq. 5에 의해 Advantage Aₖ가 0에 가깝게 된다. 따라서 이러한 샘플들은 그래디언트에 거의 기여하지 않으며, 학습이 사실상 Medium 샘플에 집중된다. 이는 RL이 “암묵적 데이터 필터” 역할을 수행한다는 핵심 가설이다.

가설 검증을 위해 저자들은 동일한 VLM(Qwen2.5‑VL‑3B/7B)을 사용해 Easy, Medium, Hard 서브셋 각각에 대해 SFT를 수행하고, ID와 OOD 성능을 비교하였다. 결과는 Hard 서브셋이 ID 정확도는 상승시키지만 OOD 성능을 크게 저하시킴을 보여준다. 반면 Medium 서브셋은 ID와 OOD 모두에서 균형 잡힌 성능을 보이며, Easy 서브셋은 OOD 성능을 유지한다. 이러한 관찰은 RL이 Hard 샘플을 무시하고 Medium 샘플에 집중함으로써 일반화 이점을 얻는다는 가설을 뒷받침한다.

이를 토대로 제안된 DC‑SFT는 사전 단계에서 Hard 샘플을 필터링하고 남은 Easy·Medium 샘플만을 사용해 SFT를 진행한다. 실험에서는 DC‑SFT가 기존 SFT보다 OOD 성능을 크게 끌어올렸을 뿐 아니라, RL 기반의 GRPO 학습보다도 높은 정확도와 낮은 변동성을 보였다. 또한 LoRA 기반 파라미터 효율적 튜닝을 적용해 학습 비용을 크게 절감했으며, 복잡한 비전‑언어 추론 작업에서도 RL을 능가하는 성능을 기록했다.

이 논문은 RL‑SFT 격차를 “알고리즘 자체”가 아니라 “데이터 선택 메커니즘”에 기인한다는 새로운 시각을 제공한다. 데이터 난이도에 기반한 필터링이 일반화 향상의 핵심임을 실증적으로 입증함으로써, 향후 VLM 사후학습에서 데이터 큐레이션이 중요한 설계 요소가 될 것임을 시사한다.

RL이 SFT보다 일반화가 좋은 이유 VLM 사후학습의 데이터 중심 관점

초록

상세 분석

댓글 및 학술 토론

의견 남기기