도구 활용을 위한 대규모 추론 모델의 과제 분해와 다양성 강화

도구 활용을 위한 대규모 추론 모델의 과제 분해와 다양성 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 추론 모델(LRM)이 복합적인 도구 사용 상황에서 “게으른 추론(Lazy Reasoning)” 현상을 보이는 문제를 지적한다. 이를 해결하기 위해 두 단계 학습 프레임워크인 D‑CORE를 제안한다. 첫 단계에서는 자체 증류(self‑distillation)를 통해 모델이 스스로 과제 분해 능력을 학습하도록 유도하고, 두 번째 단계에서는 엔트로피 기반 보상 함수를 도입한 다양성‑인식 GRPO(D‑GRPO)로 반사적 추론과 탐색성을 회복한다. BFCLv3 및 τ‑bench 등 다양한 벤치마크에서 D‑CORE‑8B는 77.7%의 정확도로 기존 8B 모델보다 5.7%p 향상했으며, D‑CORE‑14B는 79.3%로 70B 모델을 능가하는 SOTA를 달성한다.

상세 분석

본 연구는 대규모 언어 모델이 복합 도구 사용 시 “게으른 추론”이라는 현상을 보인다는 점을 실증적으로 확인한다. 구체적으로, 다중 턴 대화에서 모델은 과제 분해(task decomposition) 대신 반복적인 반성(reflection)과 불필요한 토큰 생성을 수행해 효율적인 문제 해결을 방해한다. 이러한 현상은 모델이 구조적 계획을 수립하지 못하고, 대신 시도와 오류를 반복하는 보완 메커니즘으로 해석된다. 논문은 이를 해결하기 위해 두 단계 학습 전략을 설계한다.

첫 번째 단계인 자체 증류(self‑distillation)에서는 기존 LRM 자체를 “교사”로 활용한다. 모델에게 복합 질의를 입력하고, 명시적인 태그를 이용해 과제 분해와 서브태스크 실행 과정을 유도한다. 생성된 서브태스크와 각 서브태스크에 대한 추론·툴 호출 결과를 조합해 완전한 추론 궤적(trajectory)을 만든 뒤, 이를 SFT( supervised fine‑tuning) 형태로 모델에 다시 학습시킨다. 이 과정은 외부 고성능 교사 모델 없이도 고품질의 분해 데이터를 자동 생성한다는 점에서 효율적이며, 모델 파라미터가 직접 과제 분해 능력을 내재하도록 만든다.

하지만 자체 증류만으로는 모델의 탐색성과 반사적 사고가 크게 감소한다는 부작용이 관찰된다. 구체적으로, 자체 증류 후 모델의 보상(reward) 분산이 거의 0에 수렴해 GRPO와 같은 정책 최적화 알고리즘에서 advantage 값이 소멸, 그래디언트가 사라지는 현상이 나타난다. 이를 해결하기 위해 제안된 것이 다양성‑인식 GRPO(D‑GRPO)이다. D‑GRPO는 advantage에 엔트로피 기반 보정항 ψ(H) 를 도입한다. 여기서 H는 현재 토큰 분포의 엔트로피이며, 높은 엔트로피 토큰은 모델이 보다 다양한 사고를 시도하고 있음을 의미한다. ψ(H) 를 통해 advantage가 거의 0인 경우에도 일정 수준의 보상을 제공함으로써 그래디언트 소멸을 방지하고, 동시에 고엔트로피 토큰 생성이 장려되어 반사적 추론과 탐색이 회복된다. 또한 KL 발산 항을 포함해 기존 정책과의 거리도 제어한다.

실험에서는 Qwen3 시리즈와 xLAM2 시리즈를 대상으로 BFCLv3(Parallel, Irrelevance, Multi‑turn)와 τ‑bench을 평가하였다. 결과는 다음과 같다. 1) D‑CORE‑8B는 기존 8B 모델 대비 5.7%p 정확도 상승, 특히 Multi‑turn 과제에서 큰 폭의 개선을 보였다. 2) D‑CORE‑14B는 79.3% 정확도로 70B 규모 모델을 능가했으며, 파라미터 효율성이 크게 향상되었다. 3) 자체 증류 단계만 적용했을 경우 반사적 추론이 감소해 성능이 정체되지만, D‑GRPO를 추가함으로써 토큰 엔트로피가 증가하고, 전체 성능이 크게 회복된다. 4) 토큰 엔트로피 상위 10개의 토큰 분석 결과, 모델이 도구 호출과 검증 단계에서 높은 다양성을 보이며, 이는 복합 도구 사용 시 필수적인 단계임을 확인했다.

이 논문은 두 가지 주요 기여를 가진다. 첫째, 대규모 추론 모델이 복합 도구 사용 시 과제 분해 능력이 결핍된 근본 원인을 “게으른 추론”이라는 용어로 정의하고 정량화하였다. 둘째, 자체 증류와 엔트로피 기반 보상을 결합한 D‑CORE 프레임워크를 제시해, 외부 라벨링 없이도 모델이 스스로 구조화된 계획을 학습하고, 동시에 반사적 사고와 탐색성을 유지하도록 설계하였다.

한계점으로는 (1) 현재 실험이 주로 영어 기반 벤치마크에 국한되어 있어 다국어 환경에서의 일반화 여부가 미확인이며, (2) 엔트로피 기반 보상의 하이퍼파라미터 α, δ, ζ 설정이 모델 규모와 데이터 특성에 따라 민감하게 변할 수 있다는 점이다. 향후 연구에서는 다국어 및 도메인‑특화 툴셋에 대한 적용, 그리고 자동 하이퍼파라미터 튜닝 메커니즘을 탐색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기