조합 강화학습: 검증 가능한 프롬프트를 합성해 LLM 성능을 끌어올리다

조합 강화학습: 검증 가능한 프롬프트를 합성해 LLM 성능을 끌어올리다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 검증 가능한 프롬프트가 학습 초기에 ‘hard’와 ‘easy’(통과율 1) 로 나뉘어 효율이 떨어지는 문제를 해결하고자, 여러 개의 쉬운 프롬프트를 자동으로 합성해 새로운 복합 프롬프트를 만든다. 합성된 프롬프트를 이용해 강화학습(RLVR) 을 수행하면 모델의 추론 능력이 전반적으로 향상되고, 특히 큰 모델(30B)에서 현저한 성능 상승을 보인다. 또한 합성 깊이를 단계적으로 늘리는 커리큘럼 방식과 서로 다른 도메인의 프롬프트를 교차 합성하는 방법도 제안한다.

상세 분석

Composition‑RL은 “solve‑all”(통과율 1) 프롬프트가 학습 진행 중 급격히 증가해 실제 학습에 활용 가능한 데이터 양이 감소한다는 현상을 근본적으로 완화한다. 핵심 아이디어는 두 개 이상의 기존 프롬프트를 순차적으로 결합해 새로운 문제를 만드는 ‘Sequential Prompt Composition (SPC)’이다. 구체적으로, 첫 번째 프롬프트의 정답에서 숫자 값을 추출해 자연어 정의(d₁)로 변환하고, 두 번째 프롬프트의 특정 상수를 변수(v₂)로 교체한다. 이후 v₁‑v₂ 관계를 자연어 제약(r)으로 서술하고, 이를 원본 텍스트와 결합해 q₁:₂라는 복합 프롬프트를 만든다. 이렇게 구성된 프롬프트는 원본 정답 중 두 번째 정답을 그대로 정답으로 갖으며, 해결 과정은 첫 번째 문제를 풀고 그 결과를 두 번째 문제에 적용해야 하므로 모델에게 추가적인 논리적 연쇄 사고를 요구한다.

K‑depth 합성은 SPC를 재귀적으로 적용해 K개의 프롬프트를 하나로 묶는 방식으로, K가 커질수록 모델은 더 긴 체인‑오브‑사고(chain‑of‑thought)를 학습하게 된다. 논문에서는 K=2를 기본 설정으로 두고, K를 점진적으로 늘리는 커리큘럼(Composition‑RL‑Curriculum)을 실험했다. 커리큘럼은 초기에는 쉬운 2‑depth 합성을 사용해 학습 안정성을 확보하고, 이후 단계적으로 3‑depth, 4‑depth 등으로 전환해 모델이 점진적으로 복잡한 추론을 습득하도록 설계되었다.

실험에서는 Qwen3‑4B, 8B, 14B, 30B 모델을 MA‑TH(수학) 데이터셋과 MegaScience(물리) 서브셋에 대해 훈련시켰다. 주요 지표는 pass@1(정답 일치율)과 solve‑all 비율이다. 원본 프롬프트만 사용한 RLVR 대비 Composition‑RL은 전 모델군에서 평균 24%p의 pass@1 상승을 보였으며, 특히 30B 모델에서는 3.8%p(≈28.3→32.1)까지 상승했다. 동시에 solve‑all 비율은 80% 수준에서 4060% 수준으로 크게 감소해, 실제 학습에 활용 가능한 프롬프트 풀이가 두 배 이상 늘어났다.

교차 도메인 실험에서는 수학 프롬프트와 물리 프롬프트를 섞어 합성한 경우, 단순히 두 도메인을 섞어 학습한 경우보다 더 높은 성능을 기록했다. 이는 합성 과정이 두 도메인의 논리 구조를 동시에 학습하도록 강제함으로써, 모델이 보다 일반화된 추론 능력을 획득한다는 점을 시사한다.

또한 메타‑실험을 통해 SPC가 ‘hard’(solve‑none) 프롬프트를 직접 다루지는 않지만, 기존 ‘easy’ 프롬프트를 효과적으로 ‘hard’로 전환함으로써 전체 데이터셋의 정보량을 크게 늘린다는 것을 확인했다. 이와 더불어, 기존 ‘hard’ 프롬프트에 대한 RL 훈련이 합성 프롬프트에서도 성능 향상을 가져오는 양방향 이득을 발견했다.

마지막으로, 논문은 이 접근법이 검증 가능한 보상 체계와 자연스럽게 결합될 수 있음을 강조한다. 기존 GRPO(그룹 상대 정책 최적화)와 동일한 정책 그라디언트 구조를 유지하면서, 프롬프트 샘플링 단계에서 동적 샘플링을 적용해 solve‑all/solve‑none 프롬프트를 필터링한다. 결과적으로, 강화학습 단계에서의 신호 손실을 최소화하면서도 데이터 효율성을 크게 개선한다.

요약하면, Composition‑RL은 (1) 쉬운 프롬프트를 자동으로 복합화해 학습 효율을 회복, (2) 커리큘럼을 통한 단계적 난이도 상승, (3) 도메인 간 교차 합성을 통한 일반화 향상이라는 세 축을 통해 현재 RLVR의 주요 병목을 효과적으로 해소한다.


댓글 및 학술 토론

Loading comments...

의견 남기기