미지의 길을 탐험한다: 내재동기 기반 탐색으로 LLM 추론 강화
초록
본 논문은 대형 언어 모델(LLM)의 추론 능력을 강화하기 위해, 희소한 외부 보상만을 사용하는 기존 강화학습(RL) 방식의 한계를 극복하고자 한다. 저자들은 ‘IMAGINE’이라는 프레임워크를 제안한다. IMAGINE은 (1) 토큰 수준이 아닌 전체 추론 경로를 대상으로 하는 궤적 인식 탐색 보상, (2) 오류가 있는 샘플에만 내재 보상을 할당하는 오류 조건부 보상 배분, (3) 기존 이점(advantage) 계산 후 보상을 추가함으로써 학습 안정성을 유지하는 이점 보존 통합 메커니즘을 도입한다. 네 개의 공개 데이터셋과 두 종류의 LLM(Qwen2.5‑3B, DeepSeek‑7B)에서 PPO, GRPO, DAPO와 결합해 실험한 결과, 특히 어려운 문제에서 평균 22.23%의 성능 향상을 기록하였다.
상세 분석
IMAGINE은 기존 PPO·GRPO 기반 RL‑fine‑tuning이 직면한 두 가지 근본적인 문제, 즉 ‘보상의 희소성’과 ‘탐색 유인 부족’을 동시에 해결한다. 첫 번째로, 저자들은 토큰‑단위 예측 오차를 이용한 내재 보상 방식을 전체 응답 시퀀스(질문‑답변 쌍) 수준으로 확장하였다. 이를 위해 고정된 타깃 네트워크와 학습 가능한 예측 네트워크를 동일한 구조로 유지하면서, 시퀀스 전체에 대한 L2 손실을 최소화하도록 학습한다. 시퀀스가 자주 등장하면 예측 오차가 감소하고, 드물게 등장하면 큰 오차가 남아 내재 보상으로 전환된다. 이렇게 하면 토큰 길이에 따른 편향이 사라지고, O(|o|)가 아닌 O(1) 연산 비용으로 탐색 보상을 제공한다는 계산 효율성을 확보한다. 두 번째로, 오류‑조건부 보상 배분을 도입해 정답과 일치하지 않는 응답에만 탐색 보상을 부여한다. 이는 학습 초기에 모델이 정답을 찾지 못하는 어려운 샘플에 집중적인 탐색을 유도함으로써, 보상 신호가 거의 0에 수렴하는 상황을 완화한다. 세 번째로, 탐색 보상을 기존 이점(advantage) 계산 이후에 더함으로써, 보상 간 충돌을 방지하고 GRPO의 그룹 정규화 과정에서 탐색 보상이 부정적인 이점으로 전환되는 현상을 차단한다. 이 설계는 PPO의 가치 함수 추정에 노이즈를 주지 않으며, GRPO의 KL‑penalty와도 호환된다. 실험에서는 네 개의 벤치마크(AIME 2024, Countdown‑4 등)와 두 모델에 대해 PPO·GRPO·DAPO와 결합했을 때, 특히 어려운 문제군에서 평균 22.23%의 정확도 향상을 기록했다. 또한, 응답 길이가 평균적으로 증가하면서도 훈련 안정성이 유지되는 것을 확인하였다. 전반적으로 IMAGINE은 내재 동기 기반 탐색을 LLM 추론에 맞게 재설계함으로써, 희소 보상 환경에서도 효율적인 탐색과 안정적인 정책 업데이트를 동시에 달성한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기