신뢰 영역 내 탐색을 촉진하는 TRE
초록
본 논문은 대규모 언어 모델(LLM)에서 전통적인 엔트로피 정규화가 긴 생성 길이와 방대한 어휘 때문에 탐색 효율을 떨어뜨리는 원인을 ‘누적 꼬리 위험’으로 규명한다. 이를 해결하기 위해 모델이 사전 학습 시 신뢰할 수 있다고 판단한 토큰 집합(Trust Region) 내에서만 엔트로피를 최대화하는 Trust Region Entropy(TRE) 방법을 제안하고, 수학 추론, 조합 탐색, 인간 피드백 정렬 등 다양한 벤치마크에서 기존 PPO와 표준 엔트로피 정규화보다 일관된 성능 향상을 입증한다.
상세 분석
LLM을 강화학습(RL) 기반으로 미세조정할 때, 정책 탐색을 촉진하기 위해 흔히 사용하는 엔트로피 정규화는 “전역 균등화”를 목표로 한다. 그러나 어휘 크기가 10⁵~10⁶에 달하고, 생성 길이가 수백에서 수천 토큰에 이르는 상황에서는, 대부분의 토큰이 의미적으로 무의미하거나 문법적으로 부적합한 ‘꼬리(tail)’에 속한다. 논문은 이러한 상황을 ‘누적 꼬리 위험(cumulative tail risk)’이라고 정의하고, 매 단계마다 ε만큼의 확률 질량이 무효 토큰으로 새어나가면 전체 시퀀스가 (1‑ε)ᵀ의 확률로만 유효한 추론 체인을 유지한다는 수학적 모델을 제시한다. T가 커질수록 (1‑ε)ᵀ는 급격히 감소해, 작은 ε라도 장기 추론에서는 치명적인 오류 전파를 야기한다.
이를 해결하기 위해 저자들은 “신뢰 영역(Trust Region)” 개념을 도입한다. 사전 학습된 LLM이 높은 로짓 값을 부여한 토큰 집합 A_TR(s_t)를 신뢰 영역으로 정의하고, 이 영역 내에서만 엔트로피를 최대화한다. 두 가지 구체적 구현이 제시된다. 첫 번째인 TRE‑K는 고정된 K개의 상위 로짓 토큰을 선택해 일정한 크기의 신뢰 영역을 유지한다. 두 번째인 TRE‑P는 누적 확률이 사전 정의된 임계값 P에 도달할 때까지 토큰을 포함해 동적 크기의 영역을 만든다. 이렇게 제한된 영역에서 로컬 소프트맥스를 적용해 π_local을 얻고, H(π_local)를 계산한다. 손실 함수 L_TRE,t는 전체 어휘 로그(|A|)와 신뢰 영역 로그(|A_TR|)의 비율로 스케일링하여, 영역이 작을수록 정규화 강도가 자연스럽게 감소하도록 설계되었다.
실험에서는 Qwen2.5‑1.5B‑Instruct 모델을 사용해 MATH(수학 추론), Countdown(조합 탐색), HH(Human Helpfulness) 세 도메인에서 다양한 최대 생성 길이(T)를 변별 변수로 삼았다. 결과는 다음과 같다. 짧은 T(예: 32512)에서는 약한 엔트로피 정규화(α=0.0001)가 약간의 성능 향상을 보였지만, T가 1024 이상으로 늘어나면 표준 엔트로피 정규화는 급격히 성능을 저하킨다. 반면 TRE‑K와 TRE‑P는 모든 T 구간에서 일관되게 베이스 PPO보다 높은 Pass@1 및 정확도를 기록했으며, 특히 긴 시퀀스(≥4096)에서 기존 방법이 거의 0에 수렴하는 반면 TRE는 510% 수준의 개선을 유지한다.
또한, Ablation 연구를 통해 K와 P 파라미터가 모델 신뢰도와 직접적인 상관관계를 갖는 것을 확인했다. K가 너무 작으면 탐색 공간이 과도하게 제한돼 성능이 떨어지고, K가 지나치게 크면 꼬리 위험이 다시 발생한다. P 기반 TRE‑P는 모델이 높은 확신을 보이는 단계에서는 자동으로 정규화를 비활성화해, 불필요한 노이즈 주입을 방지한다.
이 논문은 LLM 강화학습에서 “전역 엔트로피”가 아닌 “지역 엔트로피”를 최적화해야 함을 이론적·실험적으로 입증한다. 신뢰 영역을 정의하는 방식은 기존 top‑k, top‑p 디코딩과 자연스럽게 연결되며, 학습 단계에서도 동일한 원리를 적용함으로써 탐색 효율과 안정성을 동시에 달성한다. 향후 연구에서는 신뢰 영역을 동적으로 조정하는 메타‑러닝 기법이나, 토큰 수준이 아닌 구문·문단 수준의 신뢰 영역 확장 가능성도 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기