GeoRA: 기하학을 활용한 저차원 적응으로 RLVR 성능 극대화
초록
GeoRA는 강화학습 기반 검증 보상(RLVR)에서 발생하는 비등방성 업데이트 서브스페이스를 SVD 기반 저차원 어댑터로 초기화하고, 나머지 파라미터는 고정함으로써 사전학습된 기하 구조를 보존한다. 이 설계는 GPU 친화적인 dense 연산을 유지하면서 스펙트럼 붕괴와 최적화 불안정을 방지한다. Qwen·Llama 모델에 적용한 실험에서 GeoRA는 기존 LoRA·PiSSA·MiLoRA 대비 수학 베엔치마크와 OOD 태스크에서 모두 높은 정확도와 빠른 수렴을 달성했으며, 파라미터 사용량과 VRAM 소비를 99 % 이상 절감한다.
상세 분석
본 논문은 RLVR(RL with Verifiable Rewards)의 특수한 최적화 역학을 기존 PEFT(Parameter‑Efficient Fine‑Tuning) 기법에 그대로 적용했을 때 발생하는 두 가지 근본적인 문제를 지적한다. 첫째, PiSSA와 같은 SVD‑기반 저차원 적응은 “주성분”을 직접 업데이트하도록 설계돼 있으나, RLVR은 사전학습된 주요 특성을 보존하고 비주성분 방향으로 작은 변화를 가하는 것이 안정성에 유리함을 메커니즘 연구가 보여준다. 따라서 주성분을 강제로 조정하면 스펙트럼 붕괴와 KL‑regularization에 의한 급격한 성능 저하가 발생한다. 둘째, MiLoRA는 비주성분을 초기화하지만 초기 스케일이 너무 작아 최적화 초기에 주성분 서브스페이스로 회귀하는 현상이 관찰된다.
GeoRA는 이러한 문제를 해결하기 위해 “기하학적 제약 하의 서브스페이스”를 정의한다. 구체적으로, 사전학습 가중치 행렬 W에 대해 스펙트럴 프라이어(M_Spec)와 유클리드 프라이어(M_Euc)를 결합한 마스크 M_geo를 적용해 W_geo = W ⊙ (M_Spec ∪ M_Euc)를 만든다. 여기서 M_Spec은 낮은 절댓값을 가진 저주파 성분을, M_Euc는 절댓값이 작은 파라미터를 선택해 안정성과 플라스틱성을 동시에 확보한다. 이후 W_geo에 SVD를 수행해 상위 r개의 특이값·벡터를 추출하고, 이를 이용해 저차원 어댑터 A_geo, B_geo를 다음과 같이 초기화한다:
A_geo = Σ^{1/2}_geo
댓글 및 학술 토론
Loading comments...
의견 남기기