LLM 추론 능력의 한계를 돌파하는 새로운 강화학습 최적화 기술 AEPO
초록
본 논문은 기존 GRPO(Group Relative Policy Optimization) 알고리즘이 겪는 ‘엔트로피 붕괴’ 문제를 해결하기 위해 AEPO(Arbitrary Entropy Policy Optimization)를 제안합니다. 온도 조절 기반의 REINFORCE 방식을 통해 엔트로피를 직접 조작하는 대신 정책 경사 최적화 문제로 재정의함으로써, 최적화 편향 없이 효율적인 탐색을 유도하여 LLM의 추론 성능을 극대화했습니다.
상세 분석
최근 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해 강화학습(RL)이 핵심적인 역할을 수행하고 있습니다. 특히 GRPO와 같은 알고리급 알고리즘은 효율적인 학습을 가능하게 하지만, 학습 과정에서 정책의 엔트로피가 급격히 감소하는 ‘엔트로피 붕괴(Entropy Collapse)’ 현상이 발생한다는 치명적인 약점이 있습니다. 엔트로피가 낮아지면 모델은 이미 알고 있는 경로만을 반복하며 새로운 추론 경로를 탐색하는 능력을 상실하게 되고, 이는 결국 모델의 지적 한계를 확장하지 못하는 ‘탐색 병목 현상’으로 이어집니다.
기존의 연구들은 이를 해결하기 위해 엔트로피 정규화(Entropy Regularization)를 도입해 왔습니다. 하지만 기존 방식은 보상(Reward)을 극대화하려는 목적과 엔트로피(Entropy)를 유지하려는 목적 사이에서 피할 수 없는 상충 관계(Trade-off)를 발생시킵니다. 즉, 엔트로피를 높이려 하면 보상 최적화가 방해받고, 보상에 집중하면 엔트로피가 붕괴되는 ‘최적화 편향(Optimization Bias)‘이 발생하게 됩니다.
본 논문이 제안하는 AEPO(Arbitrary Entropy Policy Optimization)는 이 문제를 근본적으로 재정의합니다. 저자들은 엔트로피를 손실 함수에 직접 더하는 방식 대신, 온도 조절(Temperature-guided)된 샘플에 REINFORCE 정규화 항을 적용하는 방식을 제안합니다. 이는 엔트로피 조절을 정책 경사(Policy-gradient) 최적화 문제의 일부로 포함시키는 것입니다. 즉, 엔트로피를 직접적으로 강제하는 것이 아니라, 온도를 통해 샘플링 분포를 조절하고 이를 통해 엔트로피를 ‘간접적이고 원칙적으로’ 제어합니다. 이 방식의 핵심적 이점은 엔트로피 조절이 최적화 과정을 지배(Dominate)하지 않으면서도, 모델이 충분한 탐색을 지속할 수 있도록 유도한다는 점입니다. 결과적으로 AEPO는 최적화의 안정성을 유지하면서도 모델의 추론 지평을 넓힐 수 있는 수학적 토대를 제공합니다.
LLM의 추론 능력 향상을 위한 강화학습 기술은 현재 중요한 전환점에 서 있습니다. 최근 DeepSeek-V3 등에서 사용된 GRPO와 같은 알고리즘은 뛰어난 성능을 보여주었지만, 학습이 진행됨에 따라 모델의 정책이 지나치게 단순화되어 새로운 논리적 경로를 찾지 못하는 ‘엔트로피 붕괴’ 문제를 안고 있습니다. 이는 모델이 기존의 정답 패턴에만 안주하게 만들어, 더 복잡하고 고차원적인 추론 문제를 해결할 잠재력을 스스로 차단하는 결과를 초래합니다.
본 논문은 이러한 문제를 해결하기 위해 ‘임의 엔트로피 정책 최적화(AEPO)‘라는 혁신적인 프레임워크를 제시합니다. 기존의 엔트로피 정규화 방식은 보상 함수와 엔트로피 항 사이의 불균형을 초래하여, 모델이 정답을 맞히는 능력(Reward)과 다양한 시도를 하는 능력(Entropy) 사이에서 갈등하게 만드는 ‘최적화 편향’을 유발했습니다. 만약 엔트로피를 높게 유지하려 하면 모델은 엉뚱한 답을 내놓기 시작하고, 반대로 보상에만 집중하면 탐색이 멈춰버리는 딜레마에 빠지게 됩니다.
AEPO의 핵심 아이디어는 엔트로피 정규화를 ‘직접적인 제약’이 아닌 ‘정책 경사 최적화의 대상’으로 변환하는 것입니다. 저자들은 온도 조절(Temperature-guided) 기법을 활용하여, REINFORCE 알고리즘을 통해 엔트로피를 조절할 수 있음을 증명했습니다. AEPO는 온도 조절을 통해 샘플링된 데이터에 REINFORCE 정규화 항을 적용함으로써, 엔트로피를 모델의 최적화 프로세스 내에서 유연하게 관리합니다. 이는 엔트로피가 최적화의 주도권을 뺏지 않으면서도, 모델이 적절한 수준의 탐색을 유지할 수 있도록 ‘원칙적인(Principled)’ 통제를 가능하게 합니다.
실험 결과는 매우 압도적입니다. AEPO는 기존의 RL 베이스라인 모델들과 비교했을 때 pass@1(단일 시도 정답률) 및 pass@k(여러 시도 중 정답 포함 확률) 지표 모두에서 우수한 성능을 보였습니다. 특히 주목할 만한 점은 pass@1024 지표에서 기본 모델(Base Model)의 성능마저 뛰어넘었다는 사실입니다. 이는 AEPO가 단순히 기존의 성능을 유지하는 것을 넘어, 모델이 학습 과정에서 이전에 도달하지 못했던 새로운 추론 경로와 지식의 영역을 개척했음을 시사합니다.
결론적으로, 이 논문은 엔트로피, 탐색, 그리고 최종적인 모델 성능이 서로 분리된 요소가 아니라 유기적으로 연결된 핵심 요소임을 실험적으로 입증했습니다. AEPO는 LLM의 추론 한계를 돌파하기 위한 새로운 최적화 패러다임을 제시하며, 향후 더 강력한 추론 능력을 갖춘 AI 모델 개발을 위한 중요한 이정표가 될 것으로 기대됩니다.
댓글 및 학술 토론
Loading comments...
의견 남기기