대규모 언어 모델의 나눠‑정복 추론 훈련으로 테스트‑시간 확장성 향상
초록
본 논문은 기존의 순차적 체인‑오브‑생각(Chain‑of‑Thought, CoT) 방식이 복잡한 문제에서 한계에 부딪히는 점을 지적하고, 문제를 여러 하위 문제로 분할하고 순차적으로 해결하는 나눠‑정복(Divide‑and‑Conquer, DAC) 전략을 LLM에 적용하기 위한 전용 강화학습(RL) 프레임워크를 제안한다. 정책 모델이 문제 분할과 하위 문제 해결을 동시에 학습하도록 설계했으며, 이를 통해 테스트‑시간에 더 높은 확장성과 성능을 달성한다. 실험 결과, Qwen2.5‑7B‑Instruct와 Qwen3‑4B‑Instruct‑2507 모델을 DAC‑RL로 재훈련한 뒤 AIME·Beyond‑AIME·ByteDance‑Seed·HMMT 등 경쟁 수준 수학 벤치마크에서 Pass@1 기준 8.6%, Pass@32 기준 6.3%의 절대적 향상을 기록하였다.
상세 분석
본 연구는 LLM의 추론 능력을 한 단계 끌어올리기 위해 두 가지 핵심 문제를 해결한다. 첫째, 기존 사후 훈련(post‑training) 단계가 CoT 중심으로 설계돼 DAC 방식과 구조적 불일치가 발생한다는 점이다. CoT는 연속적인 사고 흐름을 강조하지만, DAC는 문제를 독립적인 하위 문제로 분할하고 병렬 혹은 순차적으로 해결한다. 이러한 패러다임 차이는 모델이 DAC 방식으로 직접 추론할 때 성능 저하를 초래한다는 실험적 증거를 Figure 2와 Table 1을 통해 제시한다. 둘째, DAC를 효과적으로 활용하려면 모델이 “분할‑정복” 과정을 스스로 학습해야 한다는 점이다. 이를 위해 저자들은 강화학습 기반의 End‑to‑End 프레임워크를 설계하였다.
프레임워크의 핵심은 두 단계의 정책 출력이다. (1) Division 단계에서는 입력 문제 x 를 받아 하위 문제 집합 P = {p₁,…,pₙ}을 생성한다. 여기서 하위 문제의 최소 개수 Nₛ 를 강제하고, 정규식 기반 포맷 검증, 수량 검증, 그리고 “도움성” 보상을 결합한 복합 보상 R₍ₚᵧ₍d₎₎ 을 사용한다. 도움성 보상은 하위 문제 집합을 이용해 원문 문제를 해결했을 때 최종 정답이 맞는지를 평가하는 Conquering Accuracy (CA) 값을 기반으로 한다. (2) Conquering 단계에서는 생성된 하위 문제와 원문을 결합한 프롬프트를 모델에 제공하고, 순차적으로 하위 문제를 해결한 뒤 최종 답을 도출한다. 최종 정답이 정답 집합에 일치하면 R₍ₚᵧ₍c₎₎ = 1, 아니면 0이 부여된다.
이러한 보상 구조는 Lemma 2.1을 통해 이론적으로 정당화된다. 즉, 최종 정답 보상이 하위 문제의 정확도와 양의 상관관계를 갖도록 설계되어, 정책이 하위 문제를 올바르게 분할·해결하도록 유도한다. 학습은 REINFORCE‑계열의 GRPO(Generalized Reward‑Based Policy Optimization)를 사용해 경험 버퍼 B 에 저장된 Division·Conquering 튜플을 기반으로 정책 파라미터 θ 를 업데이트한다.
실험에서는 두 모델(Qwen2.5‑7B‑Instruct, Qwen3‑4B‑Instruct‑2507)을 DAPO‑Math‑17k 데이터셋으로 10 K 스텝 정도 학습시켰으며, 기존 CoT‑RL 대비 성능 향상을 확인했다. 특히 Pass@1에서 평균 8.6%p, Pass@32에서 6.3%p의 절대적 상승을 기록했으며, 이는 “테스트‑시간 확장성”이라는 관점에서 DAC‑RL이 더 짧은 추론 경로와 더 적은 토큰 소비를 가능하게 함을 의미한다. 또한, DAC‑RL로 재훈련된 모델은 CoT 기반 추론에서도 약간의 성능 향상을 보였는데, 이는 분할‑정복 학습이 모델의 전반적인 문제 구조 인식을 강화했기 때문으로 해석된다.
한계점으로는 (1) 하위 문제의 자동 평가가 최종 정답에 의존하기 때문에, 부분적으로 잘못된 하위 답변이 전체 정답을 방해할 경우 보상이 희석될 수 있다. (2) 현재 실험은 정수 답변만을 갖는 수학 문제에 국한돼 있어, 자연어 생성이나 다중‑정답 형식에 대한 일반화는 추가 검증이 필요하다. (3) RL 훈련 비용이 여전히 고가이며, 특히 대규모 모델(>70B)에서는 샘플 효율성을 높이기 위한 메타‑학습이나 인간 피드백(Human Feedback)과의 결합이 요구된다.
향후 연구 방향으로는 (i) 하위 문제별 정답을 직접 레이블링하거나, 자동 검증기를 강화해 보다 정교한 보상 설계, (ii) 멀티‑모달 혹은 코드 생성 등 다양한 도메인에 DAC‑RL을 적용해 범용성을 검증, (iii) 분할‑정복 전략을 메타‑프롬프트 레벨에서 학습해 프롬프트 엔지니어링 비용을 최소화하는 방법 등이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기