다중 티켓 가설: 무작위 희소 서브네트워크가 RLVR을 구동한다
초록
본 논문은 강화학습 검증 보상(RLVR)에서 파라미터 업데이트가 자연스럽게 희소하게 집중된다는 사실을 바탕으로, 전체 파라미터 중 1%만 무작위로 선택해 학습해도 기존 전체 파라미터 파인튜닝과 동등하거나 더 나은 성능을 달성한다는 실험 결과를 제시한다. 서로 겹치지 않는 여러 무작위 마스크가 모두 성공함을 확인해 “다중 티켓 가설(Multiple Ticket Hypothesis)”을 제안하고, KL 제약에 의해 정책 업데이트가 저차원 서브스페이스에 제한되는 이론적 근거를 제시한다.
상세 분석
논문은 먼저 RLVR(Verification‑Reward Reinforcement Learning)이 기존 LLM 파인튜닝과 달리 정책 업데이트가 전체 파라미터가 아닌 소수 파라미터에 집중된다는 최신 연구(Mukherjee et al., 2025; Zhu et al., 2025)를 인용한다. 이를 기반으로 저자는 “극단적인 희소성(≥99% sparsity)” 하에서 무작위 파라미터 서브셋을 고정 마스크로 사용해 학습하는 가장 단순한 접근법을 제안한다. 실험은 Qwen2.5‑0.5B(Base, Instruct)와 1.5B 모델을 대상으로 수학적 추론(GSM8K, MATH‑500)과 논리적 정렬(Alphabet Sort) 두 도메인에서 수행되었다. 1% 파라미터(≈4.9M~15M)만 학습했을 때도 전체 파라미터 파인튜닝과 동등하거나 상회하는 정확도를 기록했으며, 20개의 서로 다른 무작위 마스크가 모두 성공했음에도 Jaccard 유사도가 0.005 이하로 거의 겹치지 않음을 확인했다. 이는 “하나의 승리 티켓”이 아니라 수많은 승리 티켓이 존재한다는 다중 티켓 가설을 강력히 뒷받침한다.
이론적 설명에서는 KL‑제약이 정책 업데이트를 Fisher 정보 행렬의 상위 r개의 고유벡터가 지배하는 저차원 서브스페이스에 제한한다는 가정을 두었다. 가정(1) Low effective rank, (2) Delocalized eigenvectors, (3) Small per‑step updates를 바탕으로 Proposition 5.1은 KL‑제약 하에서 업데이트가 top‑r eigenspace에만 의존함을 보이고, Proposition 5.2는 r보다 큰 크기의 무작위 파라미터 집합이 고확률로 해당 서브스페이스를 충분히 근사할 수 있음을 증명한다. 실험적으로는 Qwen2.5‑0.5B 모델의 그래디언트 스펙트럼에서 유효 차원 r≈44가 도출되었으며, 이는 전체 파라미터 490M 중 0.0000089%에 해당한다. 따라서 0.01% 수준 이하로 파라미터를 줄이면 급격히 성능이 하락하는 현상이 관찰된다.
또한 구조적 희소성(첫 레이어만, 마지막 레이어만)과 비교했을 때 무작위 마스크가 일관되게 우수한 성능을 보였으며, 이는 사전 학습된 모델이 특정 레이어에 의존하기보다 전역적으로 파라미터가 분산돼 있다는 점을 시사한다. 실패 사례로는 매우 높은 희소도(99.999% 이상)에서 모델 붕괴가 빈번히 발생했으며, 이는 KL‑제약을 초과하는 큰 업데이트가 불안정성을 초래함을 의미한다.
결론적으로, RLVR의 내재된 KL‑trust‑region 특성은 파라미터 공간의 실질적 차원을 크게 축소시키며, 이로 인해 무작위로 선택된 작은 파라미터 집합도 충분히 정책을 최적화할 수 있다. 이는 RLVR 파인튜닝의 계산·메모리 효율성을 크게 향상시킬 뿐 아니라, 사전 학습된 LLM이 얼마나 과잉 파라미터화되어 있는지를 새로운 관점에서 조명한다.
댓글 및 학술 토론
Loading comments...
의견 남기기