동적 엔트로피 기반 미세조정으로 토큰 그래디언트 최적화
초록
본 논문은 기존 SFT에서 사용되는 균일 NLL 손실이 저확신 토큰에 과도한 그래디언트를 부여해 잡음에 취약하고, 고확신 토큰에서는 학습 효율이 떨어지는 문제를 지적한다. 이를 해결하기 위해 토큰‑레벨 손실을 Tsallis q‑logarithm 기반의 변형 로그 계열로 일반화하고, 신뢰 게이트 × 오류 구조를 도출한다. Cayley 변환을 이용해 모델 불확실성에 따라 연속적인 포커스 궤적을 설계하고, Rényi‑2 엔트로피를 근사값으로 사용하는 파라미터‑프리 DEFT 목표함수를 제안한다. 실험 결과 DEFT가 다양한 모델·도메인에서 탐색‑활용 균형을 개선하고 전반적인 성능을 상승시킴을 보인다.
상세 분석
논문은 먼저 기존 Supervised Fine‑Tuning(SFT)에서 표준 음의 로그우도(NLL) 손실이 토큰 수준에서 동일한 가중치를 부여한다는 점을 비판한다. NLL은 확률 p가 낮은 토큰에 대해 그래디언트 크기 1‑p를 제공하므로, 모델이 아직 학습하지 않은 지식(coverage)에는 도움이 되지만, 사전 학습된 지식과 충돌하는 잡음 토큰에도 동일하게 큰 업데이트를 일으켜 사전 지식을 손상시킬 위험이 있다. 또한 모델이 고확신 상태에 도달하면 그래디언트가 선형적으로 감소해 분포를 충분히 샤프하게 만들지 못한다.
이를 해결하기 위해 저자는 토큰‑레벨 손실을 일반화된 변형 로그(deformed‑log) 가족으로 정의한다. Tsallis q‑logarithm ln_q(x)= (x^{1‑q}‑1)/(1‑q) 를 이용해 초점 인덱스 α≥0 로 파라미터화된 손실 L_α(p)= (1‑p^α)/α 를 도출한다. α→0이면 기존 NLL, α=1이면 선형 확률 손실, 0<α<1은 일반화 교차 엔트로피(GCE)와 동일한 형태가 된다. 손실의 로그‑그라디언트는 ∂L_α/∂z_{ŷ}=‑p^α(1‑p) 로, 이는 “신뢰 게이트 G(p)=p^α”와 “오류 (1‑p)”의 곱 형태를 띤다. 즉, 모델이 현재 예측에 얼마나 신뢰할지를 α에 따라 조절할 수 있다.
다음으로 논문은 최적화‑엔트로피 이중성을 제시한다. α가 정의하는 손실은 베이즈 위험을 최소화할 때 Tsallis 엔트로피 차수 q=1+α와 직접 연결된다. α→0이면 Shannon 엔트로피(q=1)와 동일해 정보 획득을 강조하고, α→1이면 충돌 엔트로피(q=2)와 연결돼 고확신 질량에 더 큰 압력을 가한다. 이 이론적 연결은 신뢰 게이트를 단순히 경험적 가중치가 아니라, 최적화가 추구하는 엔트로피 기하학을 반영하는 원리적 매개체임을 증명한다.
실제 학습 과정에서 α를 고정하면 어느 한쪽(coverage 혹은 sharpening)에만 편향될 수 있다. 이를 보완하기 위해 저자는 모델의 현재 불확실성을 연속적인 포커스 궤적으로 매핑한다. Cayley 변환을 이용해 확률 p를 구면상의 각도 θ=2·arctan((1‑p)/p) 로 변환하고, θ에 선형 함수를 적용해 동적 α(p)=σ(κ·(θ‑π/2)) 형태의 스케줄을 만든다. 여기서 σ는 시그모이드, κ는 스케일 파라미터이며, 실제 구현에서는 Rényi‑2 엔트로피 H_2=‑log∑p_i^2 를 사용해 p의 집중도를 추정한다. 엔트로피가 높을수록(불확실) α를 작게 유지해 NLL‑유사 행동을, 엔트로피가 낮을수록(확신) α를 크게 하여 확률‑손실에 가까운 행동을 유도한다.
이러한 동적 신뢰 게이트를 직접 구현한 것이 Dynamic Entropy Fine‑Tuning(DEFT)이다. DEFT는 별도 하이퍼파라미터 없이 현재 배치의 평균 Rényi‑2 엔트로피를 계산하고, 이를 기반으로 α를 자동 조정한다. 따라서 학습 초반에는 저확신 토큰에 충분한 그래디언트를 제공해 새로운 지식 획득을 촉진하고, 학습 후반에는 고확신 토큰을 강하게 샤프닝해 일반화 성능을 끌어올린다.
실험에서는 7가지 모델(7B‑13B 규모)과 5개 도메인(수학, 코딩, 일반 QA, 의료, 법률)에서 DEFT와 기존 NLL, 확률‑스케일링, 엔트로피‑가중 손실을 비교한다. 결과는 DEFT가 전반적으로 정확도·BLEU·코드 실행 성공률 등 주요 지표에서 1‑3%p 상승을 보이며, 특히 모델이 강한 영역(Model‑Strong)과 약한 영역(Model‑Weak) 모두에서 안정적인 개선을 기록한다. 토큰‑레벨 분석에서는 DEFT가 낮은 확신·고엔트로피 토큰에 대한 그래디언트를 적절히 억제하면서, 고확신·저엔트로피 토큰에 대한 샤프닝을 강화해 “학습‑망각” 현상을 크게 감소시킨다.
결론적으로, 논문은 SFT 손실을 엔트로피 기하학과 연결짓는 이론적 프레임워크를 제공하고, 동적 신뢰 게이트를 구현한 DEFT가 실용적인 파라미터‑프리 솔루션으로 작동함을 입증한다. 이는 향후 대규모 언어 모델의 지속적 정제와 안전한 파인튜닝에 중요한 방향성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기