포스트 트레이닝 대형 언어 모델의 플라스틱성 안정성 균형
초록
본 논문은 그룹 상대 정책 최적화(GRPO)에서 발생하는 플라스틱성(새로운 추론 능력 획득)과 안정성(기존 언어 능력 보존) 사이의 기하학적 충돌을 분석하고, 이를 확률적 그래디언트 모델링으로 해결하는 Probabilistic Conflict Resolution(PCR) 방법을 제안한다. PCR은 그래디언트를 가우시안 확률변수로 간주하고 베이지안 방식으로 소프트 프로젝션을 수행해 신호‑대‑노이즈 비율에 따라 업데이트를 조정한다. 실험 결과, MLP 레이어에만 적용한 하이브리드 구현이 훈련 진동을 크게 감소시키고, 다양한 추론 벤치마크에서 기존 GRPO 대비 우수한 성능을 달성한다.
상세 분석
논문은 먼저 GRPO의 목표 함수를 플라스틱성 손실과 안정성 손실로 명확히 분리하고, 각각의 그래디언트 gₚₗₐ와 gₛₜₐ가 고차원 공간에서 거의 반대 방향을 가짐을 실험적으로 확인한다. 특히 중·심부 MLP 레이어에서 코사인 유사도가 지속적으로 음수이며, 이는 두 그래디언트가 서로 상쇄해 최적화 효율을 저하시킨다는 직접적인 증거이다. 기존의 PCGrad와 같은 결정론적 프로젝션 방법은 이러한 그래디언트를 정확한 벡터로 가정하고 하드 프로젝션을 수행하기 때문에, 샘플링 노이즈가 큰 경우 유용한 신호까지 억제하거나 잘못된 방향으로 편향될 위험이 있다. 저자들은 이를 해결하기 위해 그래디언트를 확률변수로 모델링한다. 중앙극한정리를 이용해 각 그래디언트를 평균 μ와 공분산 Σ를 갖는 다변량 정규분포 N(μ,Σ)로 근사하고, 실제 관측값을 μ의 불편 추정치로 사용한다. 공분산은 전체 그룹 내 그래디언트들의 트레이스값을 이용한 스칼라 σ²로 단순화하여 메모리 오버헤드를 최소화한다. 이후 베이지안 관점에서 두 분포의 결합 사후분포를 계산하고, 신호‑대‑노이즈 비율(μᵖₗₐ·σₛₜₐ⁻¹ 등)에 비례하는 가중치를 적용해 소프트 프로젝션을 수행한다. 이 과정은 실제로는 닫힌 형태의 업데이트 식으로 구현되며, gₚₗₐ와 gₛₜₐ 사이의 충돌을 최소화하면서 편향과 분산 사이의 최적 트레이드오프를 달성한다는 이론적 증명을 제공한다. 구현 측면에서는 전체 파라미터에 적용하는 비용을 절감하기 위해 MLP 레이어에만 PCR을 적용하고, 어텐션 레이어는 기존 GRPO 업데이트를 그대로 사용한다. 이렇게 함으로써 핵심 지식 저장소인 MLP에서는 안정성을 강화하고, 어텐션에서는 추론 능력 향상을 위한 플라스틱성을 유지한다. 실험에서는 DeepSeek‑R1‑Distill‑Llama‑8B 모델을 AIME, MMLU, WikiText‑2 등 다양한 데이터셋에 적용했으며, β( KL 계수) 변화에 대한 민감도가 크게 완화되고, 훈련 과정에서의 진동과 발산이 현저히 감소했다. 특히 플라스틱성‑안정성 파레토 프론티어가 더 넓어져, 동일한 KL 가중치 하에서도 추론 정확도와 언어 모델 퍼플렉시티 모두에서 기존 GRPO 대비 2~4% 이상의 절대적 향상을 기록했다. 전체적으로 PCR은 그래디언트 충돌을 확률적으로 해소함으로써 GRPO의 근본적인 불안정성을 해결하고, 대규모 언어 모델의 포스트 트레이닝에 실용적인 안정성 향상 기법을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기