LLM‑RL에서 엔트로피 제어를 재정의한다 – AEnt의 적응형 토큰 클램핑 기법
초록
본 논문은 대규모 언어 모델(LLM) 강화학습에서 기존 엔트로피 정규화가 효과가 없는 원인을 이론적으로 분석하고, 응답 공간을 토큰 수준에서 클램프하고 자동으로 엔트로피 계수를 조정하는 AEnt 방식을 제안한다. 수학 추론 벤치마크에서 AEnt는 기존 PPO‑계열 및 GRPO 기반 방법들을 일관되게 능가한다.
상세 분석
LLM‑RL은 수천에서 수십만 개에 이르는 어휘 집합을 행동 공간으로 갖는다. 기존 엔트로피 보너스는 정책을 균등분포에 가깝게 만들려는 목표로, 작은 행동 공간에서는 탐색을 촉진하고 과도한 강화로부터 정책을 보호한다. 그러나 논문은 두 가지 핵심 문제를 지적한다. 첫째, 어휘 규모가 거대해질수록 균등분포에 대한 KL 발산이 급격히 증가한다. 이는 “엔트로피 바이어스”를 초래해, 실제 최적 토큰이 차지하는 확률 질량이 극히 작을 경우 보너스가 거의 무의미해진다. 둘째, 최적 응답이 희소(sparse)하게 존재하므로, 전체 어휘에 대해 엔트로피를 높이는 것이 오히려 비효율적인 탐색을 유도한다.
이론적 분석에서는 (1) 엔트로피가 정책 그래디언트의 상한임을 보이며, 엔트로피가 낮을수록 정책이 정체(stationary) 상태에 가까워진다고 제시한다. (2) 엔트로피 정규화가 제공하는 개선 효과는 λ에 비례해 O(ε²/2λ) 로 감소하지만, 동시에 H·log|A|·log(1/|A*|) 형태의 바이어스가 추가된다. 여기서 |A|는 전체 어휘 크기, |A*|는 최적 토큰 집합의 크기이다. LLM‑RL에서는 |A|가 매우 크고 |A*|가 매우 작아 바이어스가 지배적임을 실험적으로 확인한다.
AEnt은 이러한 문제를 두 단계로 해결한다. 첫 번째 단계는 “토큰 공간 클램핑”이다. 현재 정책 πθ에서 상위 (1‑p) 비율의 토큰만을 추출해 재정규화된 정책 ˜πθ를 만든다. 이렇게 하면 클램프된 공간 A(s)는 최적 토큰이 포함될 확률이 높아지며, 엔트로피 보너스가 실제 탐색에 기여하는 비율이 크게 증가한다. 두 번째 단계는 “자동 엔트로피 계수 조정”이다. 클램프된 엔트로피 ˜H(πθ)를 목표 구간
댓글 및 학술 토론
Loading comments...
의견 남기기