병렬 사고로 지연을 줄이는 분할정복 CoT
초록
본 논문은 긴 체인‑오브‑생각(Chain‑of‑Thought) 모델의 순차적 생성으로 인한 높은 지연을 감소시키기 위해, 모델이 스스로 작업을 분할하고 병렬로 하위 작업을 수행하도록 학습하는 Divide‑and‑Conquer CoT(DC‑CoT) 프레임워크를 제안한다. 기존 순차 모델을 SFT로 초기화한 뒤, 다단계 강화학습(RL)과 데이터 필터링 전략을 적용해 정확도는 유지하면서 가장 긴 경로 길이(longest path length)를 35‑40% 줄이는 성과를 보였다. AIME 2024, HMMT 2025 등 수학 벤치마크에서 기존 모델과 동등한 정확도를 유지하면서 응답 지연을 크게 단축하였다.
상세 분석
DC‑CoT는 “디렉터‑워커” 이중 역할 구조를 채택한다. 디렉터는 초기 단일 스레드 추론 단계에서 문제를 분석하고, 병렬화가 가능한 서브태스크를 식별한다. 식별된 서브태스크는 “<spawn_workers>” 토큰을 통해 워커에게 전달되며, 각 워커는 디렉터가 제공한 컨텍스트와 자신에게 할당된 서브태스크 프롬프트를 기반으로 독립적인 추론을 수행한다. 워커들의 출력은 다시 디렉터에게 반환되어, 디렉터는 이를 종합하고 필요시 추가적인 병렬 라운드를 시작하거나 최종 답변을 생성한다. 이 과정은 토큰 수준에서 표준 vLLM API를 그대로 활용하므로, 기존 인프라를 크게 수정할 필요가 없으며, 실제 병렬 실행은 GPU/CPU 멀티스레드 환경에서 자연스럽게 이루어진다.
학습 단계는 두 단계로 나뉜다. 첫 번째는 제한된 시연 데이터셋을 이용한 SFT(슈퍼바이즈드 파인튜닝)로, 모델에게 “<worker_i>”, “</worker_i>”, “<spawn_workers>”와 같은 메타 토큰을 사용해 병렬 포맷을 따르도록 가르친다. 그러나 SFT만으로는 정확도가 크게 떨어지는 문제가 발견되었다. 이를 보완하기 위해 저자들은 다단계 강화학습 파이프라인을 설계했으며, 보상 함수는 (1) 정답 여부에 대한 정확도 보상, (2) 가장 긴 경로 길이에 대한 페널티, (3) 엔트로피 안정성을 포함한다. 초기 단계에서는 DAPO(Deterministic APO) 알고리즘을 사용했으나, 토큰별 엔트로피가 과도하게 증가해 성능이 정체되는 현상이 나타났다. 이후 CISPO(Controlled Incremental Stochastic Policy Optimization)로 전환하면서 엔트로피를 적절히 억제하고 정확도가 점진적으로 회복되었다.
데이터 필터링 전략도 핵심적인 역할을 한다. 초기에는 “모두 틀린” 사례를 제외하고 “모두 정답” 사례를 포함시켜, 모델이 길이 감소 페널티에 대한 신호를 충분히 받도록 했다. 그러나 학습이 진행될수록 모델이 길이 최적화에만 치우쳐 정확도가 정체되는 현상이 나타났으며, 이를 해결하기 위해 중간 단계에서 “모두 정답” 사례를 점진적으로 배제하고, 어려운 문제에 대한 비중을 높였다. 이렇게 동적 필터링을 적용함으로써 정확도와 지연 감소 사이의 트레이드오프를 균형 있게 조절할 수 있었다.
실험 결과는 AIME 2024와 HMMT 2025를 포함한 여러 수학 문제 집합에서 보여진다. DC‑CoT는 기본 DeepScaleR‑1.5B‑Preview 모델과 동일한 정확도(≈ pass@1) 를 유지하면서, 가장 긴 경로 길이를 평균 37.4% 감소시켰다. 특히 “DC‑CoT‑HLP”(높은 길이 페널티를 적용한 버전)는 동일한 베이스라인(DSR‑HLP‑24K, DSR‑HLP‑12K) 대비 파레토 개선을 달성했다. 또한 다수 투표(maj@3)를 적용한 “DC‑CoT‑Maj”는 응답 정확도와 지연 모두에서 베이스라인보다 우수한 결과를 보였다.
관련 연구와 비교했을 때, AsyncThink, Native Parallel Reasoner(NPR)와 같은 동시 작업 모델은 비‑추론형 LLM(예: Qwen3‑4B)을 사용했으며, 병렬화만을 목표로 했다. 반면 DC‑CoT는 이미 강화학습 기반 장기 CoT를 학습한 모델을 출발점으로 삼아, 병렬화와 정확도 회복을 동시에 달성한다는 점에서 차별화된다. 또한 Kimi K2.5와 유사하게 다단계 훈련을 통해 초기에는 병렬성을, 후반에는 정확성을 강조하지만, DC‑CoT는 워커 자체도 RL을 통해 최적화한다는 점에서 더 포괄적인 접근법이라 할 수 있다.
전반적으로 이 논문은 “병렬 사고”라는 새로운 능력을 LLM에 명시적으로 학습시키는 방법론을 제시하고, 실제 수학 추론 벤치마크에서 지연 감소와 정확도 유지라는 두 마리 토끼를 잡았다. 향후 더 복잡한 문제 영역이나 멀티모달 작업에 적용한다면, 추론 효율성을 크게 향상시킬 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기