RL 미세조정이 대형 언어 모델 내부 회로의 활성 강도와 다양성을 높인다
초록
본 논문은 강화학습(RL) 기반 미세조정이 다양한 LLM의 내부 잔차 회로에 미치는 영향을 Edge Attribution Patching(EAP) 기법으로 정량화한다. 실험 결과, PPO·GRPO 등 온라인 RL은 평균 활성 강도와 활성 패턴의 엔트로피를 모두 상승시켜 정보 흐름을 더 풍부하고 유연하게 만든다. 반면 Direct Preference Optimization(DPO)은 이러한 변화를 일관되게 보이지 않아 RL 방식 간 메커니즘 차이를 시사한다.
상세 분석
본 연구는 먼저 Transformer 기반 LLM을 잔차 연결을 포함한 유향 비순환 그래프(DAG)로 모델링한다. 각 레이어의 Attention·FFN 블록을 노드로, 블록 출력이 다음 블록 입력에 더해지는 흐름을 엣지로 정의함으로써, 내부 회로를 ‘edge‑level’ 단위로 분석할 수 있는 기반을 마련한다. 기존 ACDC 방식은 엣지를 일일이 차단하고 손실 변화를 측정해야 하는 반면, EAP는 1차 테일러 전개를 이용해 ∆L≈−⟨∇_H L, O⟩ 형태의 선형 근사식을 도출한다. 이 식은 한 번의 순전파·역전파만으로 모든 엣지의 중요도 I_EAP을 동시에 계산할 수 있어, 7B 규모 모델에도 실용적으로 적용 가능하다.
분석 파이프라인은 크게 네 단계로 구성된다. (1) 동일 질문에 대해 베이스(SFT)와 RL‑fine‑tuned 모델이 모두 정답을 생성하도록 필터링하고, (2) 토큰 길이 편차를 최소화하기 위해 α·\bar{T} 만큼을 잘라내어 동일한 토큰 수(T_cut)만 사용한다. (3) 각 토큰 위치 t에서 모델 자체 출력에 대한 교차 엔트로피 L_trunc을 계산해, 손실 함수 L을 정의한다. (4) L에 대한 H‑gradient와 각 엣지 출력 O를 내적해 I_EAP을 구하고, 이를 전체 엣지 집합에 대해 히스토그램·엔트로피를 산출한다.
실험은 DeepSeek‑Math, Mistral, Distilled‑Qwen, Qwen2.5 네 쌍의 7B 모델을 대상으로 수행되었다. 각각 SFT와 PPO·GRPO·DPO 등 서로 다른 RL 알고리즘으로 미세조정했으며, GSM8K·Math·MathInstruct 등 수학 데이터셋을 사용했다. 주요 관측은 다음과 같다. 첫째, PPO·GRPO 모델은 평균 I_EAP 값이 베이스 대비 10%~30% 상승했으며, 이는 ‘활성 강도’가 전반적으로 강화됐음을 의미한다. 둘째, 엣지 중요도 분포의 엔트로피가 유의하게 증가해, 특정 경로에 의존하던 기존 회로가 보다 고르게 활용되는 ‘다양성’이 확보되었다. 셋째, DPO 모델은 이러한 두 지표에서 일관된 상승을 보이지 않았고, 경우에 따라 오히려 감소하기도 했다. 이는 DPO가 보상 신호를 직접적인 선호 비교에 의존함으로써, 정책 업데이트가 더 국소적이고 제한적인 정보 흐름 변화를 초래한다는 가설을 뒷받침한다.
또한, 엣지 중요도와 모델 성능 간의 상관관계를 분석한 결과, 활성 강도·다양성이 높은 모델일수록 수학 문제 해결 정확도가 2~5%p 상승했다. 이는 내부 회로의 ‘중복성’(redundancy)과 ‘유연성’(flexibility)이 외부 성능 향상에 직접 기여한다는 실증적 증거다. 논문은 이러한 현상이 특정 레이어에 국한되지 않고, 전체 깊이(L)와 모든 헤드에 걸쳐 고르게 나타남을 보여준다.
마지막으로, 저자들은 코드와 데이터 파이프라인을 공개함으로써, 향후 다양한 도메인(코드, 추론, 대화)에서 RL‑fine‑tuning이 내부 회로에 미치는 영향을 비교 연구할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기