전략 주입을 통한 LLM 추론 능력 강화

초록

본 논문은 작은 플래너와 대형 언어 모델을 리더‑팔로워 구조의 다중 에이전트 강화학습으로 공동 학습시켜, 체인오브생각(Chain‑of‑Thought) 과정에 자기반성·깊은 사고와 같은 추론 전략을 적시적으로 삽입하는 rSIM 방식을 제안한다. 실험 결과, 0.5 B 파라미터 Qwen2.5 모델이 플래너와 결합될 경우 14 B 모델을 능가하는 추론 성능을 보이며, 플래너는 한 번 학습 후 다양한 LLM에 플러그인 형태로 적용 가능하고, 지속 학습을 통해 여러 과제에 점진적으로 일반화된다.

상세 요약

rSIM은 “전략 주입”이라는 새로운 강화학습 신호를 도입함으로써 LLM이 스스로 “aha” 순간을 경험하도록 설계되었다. 핵심 아이디어는 두 에이전트, 즉 전략을 제시하는 플래너(리더)와 실제 텍스트를 생성하는 LLM(팔로워)를 동시에 최적화하는 것이다. 플래너는 현재 CoT 단계에서 어떤 추론 전략(예: 자기반성, 가설 검증, 역추론 등)을 삽입할지 결정하고, 그 선택은 규칙 기반 보상 함수에 의해 평가된다. 보상은 (1) 전략 삽입 후 정답률 향상, (2) 토큰 효율성, (3) 과도한 전략 남용 방지를 위한 페널티 등으로 구성되어, 단순히 정답을 맞추는 것을 넘어 전략 사용의 질을 촉진한다.

학습은 다중 에이전트 강화학습(MARL) 프레임워크 내에서 리더‑팔로워 정책 그래디언트를 사용한다. 플래너는 작은 파라미터 규모(수십만)로 설계돼, 빠른 수렴과 낮은 연산 비용을 보장한다. 반면 LLM은 사전 훈련된 거대 모델을 그대로 활용하며, 플래너가 제시한 전략 토큰을 CoT에 삽입함으로써 기존 파인튜닝 없이도 추론 흐름을 재구성한다. 이러한 구조는 “플러그인‑형” 접근법을 가능하게 하여, 한 번 학습된 플래너를 다양한 LLM에 재사용할 수 있다.

실험에서는 Qwen2.5‑0.5B에 플래너를 적용한 rSIM이 동일 조건의 Qwen2.5‑14B보다 여러 수학·논리·코드 문제에서 평균 12 %p 이상 높은 정확도를 기록했다. 특히 복잡한 다단계 추론이 요구되는 GSM8K, MATH, HumanEval 등에서 전략 삽입이 효과적으로 작동했으며, 플래너가 제시한 전략 순서가 인간 전문가가 설계한 CoT와 유사한 패턴을 보였다. 또한 플래너는 연속 학습 시점에서 새로운 과제에 대한 보상을 추가함으로써 점진적으로 전략 레퍼토리를 확장했으며, 이는 기존 플래너를 재학습 없이도 새로운 도메인에 적용할 수 있음을 시사한다.

한계점으로는 현재 보상 설계가 비교적 단순하고, 전략 종류가 사전 정의된 소수에 국한된다는 점이다. 또한 플래너와 LLM 사이의 인터페이스가 토큰 수준 삽입에 의존하기 때문에, 매우 긴 컨텍스트에서는 전략 신호가 희석될 위험이 있다. 향후 연구에서는 메타‑리워드 학습이나 자동 전략 생성 메커니즘을 도입해 전략 공간을 확장하고, 플래너‑LLM 간의 보다 정교한 통신 프로토콜을 설계할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)