다양한 고수준 논리 전개를 통한 제로샷 추론 강화
초록
DIP(Diverge‑to‑Induce Prompting)는 질문당 여러 개의 고수준 근거를 생성하고, 각각을 상세한 초안 계획으로 확장한 뒤, 이 초안들을 하나의 최종 계획으로 유도한다. 단일 전략에 의존하는 기존 CoT·S‑CoT 방식보다 제로샷 추론 정확도가 크게 향상되며, 샘플링 기반 다중 경로 방법보다 토큰 비용이 적다.
상세 분석
본 논문은 LLM 기반 제로샷 추론에서 흔히 발생하는 “단일 경로 고착화” 문제를 해결하고자, 질문당 다수의 고수준 논리(라티오) — 즉, 문제 해결 전략을 먼저 제시하도록 프롬프트를 설계한다. 이 단계에서 모델은 하나의 호출로 N개의 서로 다른 라티오를 생성한다(N=5가 기본). 각 라티오는 동일한 호출에 입력되어 단계별 초안 계획(p_i)으로 전개되며, 이는 기존 Plan‑and‑Solve이나 S‑CoT가 한 번에 하나의 계획만 만드는 방식과 근본적으로 다르다.
핵심은 “Draft Plan Induction” 단계이다. 여러 초안(p_1…p_N)을 한 번에 LLM에 제공하면, 모델은 이들을 종합해 하나의 통합된 최종 계획(P_DIP)을 만들어낸다. 여기서 모델은 서로 다른 라티오가 제공하는 관점·가정·세부 절차를 비교·조정하고, 모순을 제거하거나 보완한다. 이는 인간이 여러 해결책을 검토하고 최적의 절차를 선택하는 과정과 유사하며, LLM의 “인덕티브” 능력을 인스턴스 수준에서 활용한다는 점에서 혁신적이다.
실험에서는 LLaMA, Mistral, Gemini, GPT, Grok 등 6개 패밀리의 다양한 규모 모델을 대상으로 BBH와 LiveBench Reasoning 두 벤치마크를 평가했다. DIP은 모든 모델에서 Z‑CoT, R‑CoT, S‑CoT 대비 평균 26%p(특히 Llama 4 Scout에서는 +30.5%p) 향상을 기록했으며, 토큰 사용량은 Self‑Consistency(k=20)와 비교해 47배 적었다. 이는 단순히 더 많은 샘플을 생성한 것이 아니라, “다양성 → 통합 → 실행”이라는 파이프라인이 효율적인 추론을 가능하게 함을 증명한다.
또한, 라티오 생성 단계가 없는 DIP‑R과 비교했을 때 9/10 모델에서 성능이 우수함을 보여, 고수준 라티오가 초안 품질을 크게 좌우한다는 점을 확인했다. N값을 늘릴 경우(N=5~7) 대부분의 모델에서 성능이 상승하지만, 과도한 N은 노이즈를 유발해 일부 모델(Llama 4 Scout)에서 감소하는 현상도 관찰됐다.
결과적으로 DIP은 (1) 라티오 다양성을 통해 단일 전략의 편향을 완화, (2) 초안 계획을 통합해 보다 일관된 추론 흐름을 제공, (3) 샘플링 기반 다중 경로 방법보다 토큰 효율성을 확보한다는 세 가지 장점을 제공한다. 향후 연구에서는 라티오 생성 프롬프트를 자동 최적화하거나, 외부 검증 모듈 없이도 더 복잡한 논리 구조를 다룰 수 있는 확장성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기