엔트로피 기반 토큰 수준 하이브리드 학습으로 대형 언어 모델 성능 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(Large Language Model)의 하이브리드 학습에 토큰‑단위 예측 엔트로피를 활용한 그래디언트 가중치를 도입한 “Entropy‑Gated Selective Policy Optimization(EGSPO)”을 제안한다. 3단계(전문가 SFT, RL 롤아웃, 엔트로피‑게이트) 파이프라인을 통해 고엔트로피 토큰은 전체 PPO 업데이트로 탐색을 촉진하고, 저엔트로피 토큰은 ϕ‑attenuated PPO로 변동성을 감소시킨다. Advantage Aₜ를 모든 토큰에 유지함으로써 잘못된 경로에 대해 일관된 부정적 신호를 제공한다. AIME와 MATH 벤치마크에서 각각 +3.8%·+2.9%의 성능 향상을 달성했으며, 기존 CHORD‑ϕ 대비 연산량은 3.4%만 증가한다.

상세 분석

EGSPO는 기존 하이브리드 학습이 샘플 수준에서 SFT와 RL을 혼합하던 한계를 토큰 수준에서 극복한다는 점에서 혁신적이다. 첫 번째 단계인 SFT 전문가 학습은 약 20%의 전문가 데이터만을 사용해 안정적인 초기 정책을 만든다. 이는 RL 초기화 시 흔히 발생하는 불안정성을 크게 완화한다. 두 번째 단계에서는 현재 정책으로부터 롤아웃을 생성하고, 각 토큰에 대해 예측 엔트로피 H(yₜ)=−∑₍v∈V₎p(v|·)log p(v|·)를 계산한다. 엔트로피는 모델이 해당 토큰에 대해 얼마나 불확실한지를 정량화하므로, 고엔트로피 토큰은 학습에 더 큰 정보량을 제공한다는 가정이 성립한다.

핵심 메커니즘은 엔트로피‑게이트이다. 각 시퀀스별로 상위 ρ(논문에서는 10%) 토큰을 고엔트로피 그룹으로 지정하고, 나머지는 저엔트로피 그룹으로 분류한다. 고엔트로피 토큰은 기존 PPO 손실 L_PPO(yₜ)=−min(ρₜAₜ,clip(ρₜ,1−ε,1+ε)Aₜ)를 그대로 적용해 탐색을 장려한다. 저엔트로피 토큰은 ϕ(p)=p(1−p)라는 가중 함수를 곱한 ϕ‑attenuated PPO, 즉 L_low(yₜ)=ϕ(pₜ)·L_PPO(yₜ)로 처리한다. ϕ(p)는 확신이 높은(p≈1) 토큰에 대해 거의 0에 가깝게 감소시키므로, 변동성을 크게 줄이면서도 Advantage Aₜ를 보존한다. 따라서 잘못된 롤아웃(r=−1)에서도 Aₜ<0이 유지되어 모든 토큰이 부정적 그래디언트를 받으며, “확신이 높은 오류”가 강화되는 위험을 방지한다.

또한, 논문은 토큰‑레벨 그래디언트 방향과 크기를 명확히 구분한다. 방향은 Advantage Aₜ에 의해 결정되고, 크기는 ϕ(p)로 조절된다. 이는 기존 SFT‑style 손실을 토큰에 적용했을 때 발생할 수 있는 “정답이 아닌 토큰에 양의 그래디언트가 흐르는” 문제를 근본적으로 해결한다.

실험 설정은 Qwen2.5‑7B‑Instruct를 기반으로 8개의 A100 GPU에서 수행되었으며, SFT warm‑up을 25 epoch, 하이브리드 학습을 4 epoch 진행했다. 엔트로피 계산과 토큰 라우팅에 드는 부가 연산은 전체 파이프라인에 3.4% 정도만 추가된다. 결과적으로 AIME에서 기존 CHORD‑ϕ 대비 3.8%p, MATH에서 2.9%p 상승을 기록했으며, 저엔트로피 토큰에 대한 그래디언트 방향이 97.8% 정확하게 부정적(또는 긍정적)으로 유지된다는 정량적 분석도 제공한다.

이러한 설계는 토큰‑레벨 불확실성을 활용해 학습 효율을 극대화하면서도, 하이브리드 학습의 안정성을 보장한다는 점에서 향후 대형 모델의 정교한 미세조정에 중요한 방향성을 제시한다.

엔트로피 기반 토큰 수준 하이브리드 학습으로 대형 언어 모델 성능 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기