다이나믹 문제 라우팅을 통한 이중 모드 추론 프레임워크
초록
본 논문은 대형 언어 모델(LLM)에 대해 문제 유형에 맞는 추론 모드를 자동으로 선택·실행하는 “Chain of Simulation”(CoS) 방식을 제안한다. 수학, 공간, 다중 단계 추론을 각각 전용된 계산 흐름, JSON 기반 상태 추적, 하이브리드 사실 추출 모드로 처리해 GSM8K, StrategyQA, bAbI에서 기존 최고 성능 대비 각각 1.0 %, 2.5 %, 65.2 % 상대 향상을 달성했으며, Self‑Consistency 대비 54 % 적은 연산 비용을 기록한다.
상세 분석
CoS는 LLM이 내재하고 있는 서로 다른 “추론 서브시스템”을 프롬프트 설계 수준에서 활성화한다는 점에서 혁신적이다. 먼저 문제를 텍스트 전처리·정규표현식·키워드 매칭을 통해 수학·공간·다중 홉 지표를 추출하고, 이를 기반으로 우선순위 기반 라우팅 알고리즘(Algorithm 2)으로 최적 모드를 선택한다. 세 가지 모드는 각각 다음과 같은 특성을 가진다. ① Computational Flow Mode는 수학 문제에 특화된 단계별 연산 프롬프트와 Self‑Consistency 샘플링(k=5)을 결합해 다수결·중앙값 집계로 정답을 도출한다. ② Symbolic State Tracking Mode는 공간·엔티티 추적 문제에 JSON 형태의 상태 객체를 선언·업데이트하도록 유도함으로써 복잡한 변환 과정을 일관되게 유지한다. ③ Hybrid Fact‑Extraction Mode는 다중 홉 추론에 사실 추출·연결 과정을 혼합해, 사실 기반 추론과 논리 연산을 동시에 수행한다.
실험에서는 Gemma‑3 27B, LLaMA‑3.1 8B, Mistral 7B, Qwen‑2.5 14B 네 모델에 동일 파이프라인을 적용했으며, 각 벤치마크에서 모드 선택 정확도가 전체 성능에 미치는 영향을 정량화했다. 특히 GSM8K에서는 88 %의 문제를 Computational Mode에 라우팅했을 때 81.2 % 정확도를 기록했으며, 동일 문제를 잘못된 Symbolic Mode에 라우팅하면 정확도가 0 %에 수렴한다는 극명한 차이를 보고했다. 이는 LLM이 “전역적인” CoT보다 특정 프롬프트에 의해 활성화되는 서브시스템을 가지고 있음을 실증한다.
비용 측면에서는 Self‑Consistency이 평균 15.1 초를 소요하는 반면, CoS는 6.9 초(≈54 % 감소)로 동일 수준의 정확도를 유지한다. 이는 샘플링 횟수를 줄이면서도 모드별 최적화된 프롬프트가 오류 전파를 억제하기 때문이다. 또한 작은 모델(Mistral 7B)에서 상대적 향상이 크게 나타나, 모델 규모와 무관하게 라우팅 기반 최적화가 효과적임을 시사한다.
한계점으로는 현재 라우팅 규칙이 휴리스틱 기반이며, 복합적인 문제(예: 수학적 연산과 공간 변환이 동시에 요구되는 경우)에 대한 다중 모드 병합 전략이 미비하다. 또한 JSON 상태 추적이 복잡한 논리 구조를 완전히 표현하기엔 제한적이며, 추론 과정의 투명성·디버깅을 위한 메타‑로그가 부족하다. 향후 연구에서는 메타‑학습을 통한 자동 라우팅 정책 학습, 모드 간 협업 메커니즘, 그리고 외부 도구(코드 실행, 검색 엔진)와의 연동을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기