RL이 대형 언어 모델을 작은 서브네트워크로 미세조정한다

RL이 대형 언어 모델을 작은 서브네트워크로 미세조정한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 강화학습(RL) 단계에서 대형 언어 모델(LLM)의 파라미터 업데이트가 전체 파라미터의 5%~30%에 불과한 작은 서브네트워크에만 집중되는 현상을 발견한다. 이 현상은 7가지 RL 알고리즘과 10가지 모델에 걸쳐 일관되게 나타났으며, 별도의 희소성 정규화 없이 자연스럽게 발생한다. 서브네트워크만을 고정하고 나머지를 동결한 상태에서 동일한 데이터와 하이퍼파라미터로 재학습하면, 전체 모델을 전부 미세조정한 결과와 거의 동일한 성능과 파라미터 값을 얻을 수 있다. 업데이트는 특정 레이어에 국한되지 않고 거의 모든 매트릭스에 고르게 퍼지지만, 각 매트릭스의 업데이트는 거의 전부 풀랭크이며, 이는 작은 파라미터 집합이 전체 파라미터 공간을 거의 완전하게 탐색한다는 의미이다. 저자들은 이러한 희소성의 주요 원인으로 정책 분포와 가까운 데이터(인‑디스트리뷰션)에서 학습하는 점을 제시한다.

상세 분석

본 연구는 크게 네 가지 핵심 질문에 답한다. 첫째, RL 단계에서 파라미터 업데이트가 실제로 얼마나 희소한가? 실험 결과, 7가지 대표적인 RL 알고리즘(PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME)과 10가지 서로 다른 LLM(예: Llama‑3, DeepSeek, Eurus, Tulu 등)에서 68%~96%의 파라미터가 전혀 변하지 않았다. 이는 SFT 단계에서 보이는 6%~15% 수준의 희소성과는 정반대이며, RL이 사전학습된 모델의 구조를 크게 건드리지 않음을 시사한다.

둘째, 업데이트가 특정 레이어에 집중되는가? 레이어별 희소성을 분석한 결과, 모든 트랜스포머 레이어가 비슷한 비율로 업데이트되었으며, 유일하게 거의 변하지 않은 것은 레이어 정규화(LayerNorm) 파라미터였다. 이는 “특정 레이어만 튜닝한다”는 직관과는 달리, 전체 네트워크를 골고루 사용하지만 각 레이어 내에서는 소수의 파라미터만 활성화된다는 점을 보여준다.

셋째, 희소한 업데이트가 저차원(저랭크) 공간에 국한되는가? 각 매트릭스별 업데이트의 랭크를 측정한 결과, 평균 랭크가 99%에 육박하는 거의 풀랭크(full‑rank)임을 확인했다. 즉, 파라미터는 적은 수만 변하지만, 그 변형이 전체 매트릭스가 표현할 수 있는 거의 모든 방향을 포함한다는 의미다. 이는 LoRA와 같은 저랭크 적응 방식과는 근본적으로 다른 메커니즘이며, RL이 “작은 서브네트워크지만 전역적인 표현력을 유지한다”는 새로운 관점을 제공한다.

넷째, 서브네트워크만을 별도로 미세조정하면 전체 모델과 동일한 결과를 얻을 수 있는가? 저자들은 마스크 m을 정의해 전체 파라미터 중 변한 부분만을 남기고, 동일한 데이터와 하이퍼파라미터로 재학습했다. DPO와 PRIME 두 알고리즘 모두에서, 서브네트워크만을 튜닝한 모델(θ_sub)은 전체 모델(θ_full)과 거의 동일한 테스트 정확도와 파라미터 값을 보였다. 이는 기존 Lottery Ticket Hypothesis(LTH)가 “성능을 복제한다”에 머무는 반면, 본 현상은 “정확히 동일한 파라미터 분포까지 복제한다”는 강력한 주장을 뒷받침한다.

희소성의 원인 분석에서는 인‑디스트리뷰션 데이터(현재 정책과 유사한 데이터)에서 학습하는 것이 핵심 요인임을 실험적으로 입증했다. KL 정규화, 그래디언트 클리핑, 온‑오프라인 RL 방식 등은 희소성에 미미한 영향을 미쳤다. 따라서 정책이 기존 모델과 크게 차이나지 않을 때, RL은 최소한의 파라미터만 조정해 목표 행동을 달성한다는 결론에 도달한다.

이러한 발견은 두 가지 실용적 함의를 가진다. 첫째, RL 단계에서 불필요한 파라미터 업데이트를 방지함으로써 메모리와 연산 비용을 크게 절감할 수 있다. 둘째, 사전학습된 모델이 이미 “잠재적 서브네트워크”를 내포하고 있음을 보여주어, 향후 효율적인 RL 파인튜닝 기법(예: 서브네트워크 사전 탐색, 동적 마스크 적용) 개발에 이론적 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기