시각 언어 모델을 위한 통합 감독·강화 학습 ViSurf

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ViSurf는 대형 시각‑언어 모델(LVLM)의 사후 학습 단계에서 감독 미세조정(SFT)과 검증 보상 기반 강화학습(RLVR)의 장점을 하나의 단계로 결합한 단일 파이프라인이다. 정답 라벨을 RLVR 롤아웃에 직접 삽입하고, 라벨에 대한 세 가지 보상 제어 전략을 도입해 학습 안정성을 확보한다. 실험 결과, ViSurf는 기존 SFT, RLVR, 그리고 순차적 SFT→RLVR 방식보다 전반적인 성능과 기억 보존 측면에서 우수함을 입증한다.

상세 분석

ViSurf의 핵심 아이디어는 SFT와 RLVR이 공유하는 그래디언트 구조를 이용해 두 손실을 하나의 목적함수로 통합하는 것이다. 기존 SFT는 정답 라벨 y에 대한 로그우도 손실 L_SFT = ‑E

시각 언어 모델을 위한 통합 감독·강화 학습 ViSurf

초록

상세 분석

댓글 및 학술 토론

의견 남기기