경량 일반화 프롬프트 예측 모델로 효율적인 RL 사후 학습을 이끌다
초록
본 논문은 대규모 언어 모델의 강화학습(RL) 사후 학습에서 비용이 많이 드는 롤아웃을 줄이기 위해, 전체 최적화 이력을 활용한 가벼운 생성형 프롬프트 예측 모델(GPS)을 제안한다. GPS는 프롬프트 난이도를 베이지안 방식으로 추정하고, 중간 난이도 우선과 히스토리 기반 다양성을 결합한 배치 선택 전략으로 훈련 효율성을 크게 향상시킨다. 실험 결과, 기존 방법 대비 훈련 속도가 최대 2배 빨라지고, 테스트 시 연산 비용을 36% 절감하면서 정확도는 유지 또는 향상된다.
상세 분석
이 논문은 최근 LLM(Large Language Model)의 추론 능력을 강화하기 위해 검증 가능한 보상(Verifiable Reward)을 이용한 강화학습(RL‑VR)이 널리 사용되는 상황에서, 롤아웃 비용이 병목이 된다는 문제를 정확히 짚어낸다. 기존의 온라인 프롬프트 선택 기법은 후보 프롬프트 집합을 실제 모델로 평가한 뒤 표준편차가 큰(즉, 난이도가 중간인) 프롬프트를 선택하는 방식이다. 하지만 이 방식은 추가 롤아웃을 필요로 하여 전체 연산량을 크게 늘린다. 또, MoPPS와 같은 프롬프트‑특정 예측 모델(PPM)은 각 프롬프트마다 독립적인 베타 사후분포를 유지해, 빈번히 선택되지 않은 프롬프트에 대한 추정이 오래된 사전값에 머무르는 ‘콜드 스타트’ 문제와, 모델 파라미터 θ가 지속적으로 변함에도 불구하고 과거 데이터에만 의존하는 비동적 추정 문제를 안고 있다.
GPS는 이러한 한계를 극복하기 위해 ‘공유 히스토리’를 활용한 전역 잠재 변수 zₜ를 도입한다. zₜ는 현재까지 축적된 모든 프롬프트‑보상 쌍(Hₜ₋₁)을 요약하는 컨텍스트 역할을 하며, 조건부 사전 pη(zₜ|Hₜ₋₁)와 디코더 pψ(γ|τ, zₜ)를 통해 프롬프트 난이도 γ의 사후분포를 추정한다. 변분 추론을 이용해 ELBO를 최적화함으로써 (i) 디코더는 프롬프트와 전역 컨텍스트 사이의 비선형 매핑을 학습하고, (ii) 인코더는 현재 히스토리에서 유용한 정보를 추출하며, (iii) 히스토리‑조건부 사전은 시간에 따라 변하는 모델 상태를 반영한다. 이 구조는 독립적인 프롬프트‑특정 PPM이 갖는 ‘정보 고립’ 문제를 해소하고, 새로운 혹은 드물게 등장한 프롬프트에 대해서도 의미 있는 난이도 예측을 가능하게 한다.
배치 선택 단계에서는 두 가지 원칙을 결합한다. 첫째, ‘중간 난이도 우선’ 원칙은 예측된 성공률 γ̂가 0.2~0.8 구간에 있는 프롬프트에 높은 점수를 부여해, 정책 그라디언트가 소실되지 않도록 한다. 둘째, ‘히스토리‑앵커드 다양성’ 원칙은 이미 선택된 프롬프트와의 임베딩 거리와 히스토리 상의 상관관계를 고려해 중복을 최소화한다. 구체적으로, 배치 효용 함수는 λ·다양성 점수 + (1‑λ)·난이도 점수 형태이며, 탐욕적 선택을 통해 B개의 프롬프트를 구성한다.
실험은 수학·논리·코드 생성 등 다양한 추론 벤치마크(MATH, GSM‑8K, Codeforces 등)와 여러 LLM 백본(LLama‑2‑7B, LLaMA‑13B, GPT‑NeoX 등)에서 수행되었다. 주요 결과는 다음과 같다. (1) GPS는 프롬프트 난이도 예측 정확도(MSE)에서 MoPPS 대비 30% 이상 개선한다. (2) 훈련 단계에서 동일한 총 롤아웃 수 대비 GPS‑선택 배치는 평균 1.6×2.0× 빠른 수렴을 보이며, 최종 정확도는 기존 랜덤 샘플링이나 DS, SPEED‑RL보다 13%p 상승한다. (3) 평가 기반 선택과 비교했을 때, GPS는 롤아웃 비용을 69% 절감하면서도 성능 격차를 거의 없앴다. (4) 테스트 시점에 학습된 PPM을 이용해 연산 예산을 프롬프트별로 재분배하면, 동일 예산 하에서 정확도가 2.1%p~3.2%p 상승하거나, 연산량을 36.4% 절감해도 성능 저하가 거의 없었다.
이 논문은 ‘작은 모델이 큰 모델의 학습 효율을 높일 수 있다’는 개념을 실증적으로 보여준다. 특히, 전역 잠재 변수와 변분 베이지안 프레임워크를 활용해 비정형 데이터(프롬프트‑보상 히스토리)를 효과적으로 요약하고, 이를 배치 선택에 직접 연결한 점이 혁신적이다. 향후 연구에서는 (i) 더 복잡한 컨텍스트(예: 프롬프트 메타데이터, 토큰‑레벨 피드백)와 결합한 다중 잠재 변수 모델, (ii) 비베이시안(예: 딥 앙상블) 접근법과의 비교, (iii) 실제 서비스 환경에서의 온라인 적응성 및 안전성 검증이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기