LLM 강화학습에서 엔트로피 동역학과 제어
초록
본 논문은 대형 언어 모델(LLM)의 강화학습 기반 파인튜닝(RFT) 과정에서 엔트로피가 어떻게 변하는지를 이론적으로 규명한다. 단일 로그잇 업데이트에 대한 일차 근사를 통해 엔트로피 변화 판별자 S를 도출하고, 이를 그룹 상대 정책 최적화(GRPO) 전체 업데이트에 확장한다. S와 정책 평균값의 차이가 엔트로피 증가·감소를 결정한다는 결과를 바탕으로, 엔트로피를 안정화시키는 클리핑 기법을 제안하고 실험적으로 검증한다.
상세 분석
논문은 먼저 LLM의 토큰별 확률분포 p를 softmax(z) 로 정의하고, 엔트로피 H = −∑ p_i log p_i 로 정량화한다. 단일 로그잇에 대한 작은 변동 δz = ε e_k 를 가정하면, Lemma 3.1에 의해 확률 변화는 δp_k = ε p_k(1−p_k), δp_i = −ε p_i p_k (i≠k) 로 표현된다. 이 식은 로그잇을 올리면 해당 토큰 확률이 증가하고, 나머지 토큰들의 확률이 균등하게 감소한다는 직관을 수학적으로 뒷받침한다.
다음 단계에서 엔트로피 변화의 일차 근사를 전개하면 ΔH = −ε S* + O(ε²) 가 도출된다. 여기서 S* = p_k(H + log p_k) 로 정의된 ‘엔트로피 판별자’는 토큰 확률 p_k 와 현재 엔트로피 H 사이의 관계를 포착한다. S의 부호는 p_k 와 e^{−H} 의 비교에 의해 결정되며, 즉 p_k 가 e^{−H} 보다 작으면 S > 0, 크면 S* < 0 가 된다. 따라서 보상(ε>0) 시 낮은 확률 토큰을 강화하면 엔트로피가 증가하고, 높은 확률 토큰을 강화하면 엔트로피가 감소한다. 반대로 패널티(ε<0) 경우는 부호가 반전된다. 이 결과는 “안전한” 고확률 응답만을 지속적으로 보상하면 엔트로피가 급격히 붕괴한다는 현상을 이론적으로 설명한다.
그 후 논문은 GRPO 업데이트에 이 분석을 확장한다. GRPO에서는 토큰별 중요도 비율 r와 어드밴티지 A가 곱해진 α = η r A 라는 효과적 스텝 사이즈가 정의된다. Theorem 3.3에 따르면 ΔH = −α (S* − E_p
댓글 및 학술 토론
Loading comments...
의견 남기기