동적 모델 보간으로 시스템1·2 시너지 구현
초록
본 논문은 기존의 System 1(직관)과 System 2(심층) 언어 모델을 별도로 훈련하는 대신, 두 체크포인트를 선형 보간하여 ‘추론 강도 λ’를 동적으로 조절함으로써 질문별로 적절한 사고 깊이를 제공하는 DAMI 프레임워크를 제안한다. 파라미터 보간이 연속적이고 단조적인 성능‑효율 파레토 프론티어를 형성한다는 실증과, 이를 기반으로 학습 기반 선호 학습(DAMI‑Pref)과 무학습 신뢰도 기반(DAMI‑Conf) 두 가지 λ 추정 방법을 설계한다. 수학 추론 벤치마크 5종에서 Thinking 모델보다 정확도가 1.6‑3.4% 상승하고 토큰 사용량이 29‑40% 감소하는 등 효율성과 정확성 모두에서 우수함을 입증한다.
상세 분석
본 연구는 LLM의 인지적 이분법을 ‘출력 제어’가 아닌 ‘능력 제어’라는 새로운 관점으로 전환한다. 기존 연구들은 토큰 예산, 조기 종료, CoT 압축 등으로 System 2의 출력 길이를 제한했지만, 이는 근본적인 사고 방식의 차이를 반영하지 못한다는 비판을 제기한다. 저자들은 Instruct(시스템 1)와 Thinking(시스템 2) 체크포인트가 파라미터 공간에서 높은 코사인 유사도(>0.99)를 보이며 동일한 최적화 베이시스에 존재한다는 사실을 발견하고, 이를 기반으로 선형 보간 Θ(M)=λΘ(T)+(1‑λ)Θ(I) 를 적용한다. 실험 결과 λ를 0→1으로 증가시킬 때 정확도와 토큰 소비가 각각 단조적으로 상승·감소하며, 중간값이 양쪽 모델을 모두 능가하는 ‘볼록 파레토 프론티어’를 형성한다. 이는 파라미터 보간이 모델 내부 표현을 연속적으로 변형시켜 인지 깊이를 조절한다는 강력한 증거다.
다음으로 저자들은 질문별 최적 λ(q)를 추정하는 두 가지 전략을 제시한다. 첫 번째인 DAMI‑Pref는 ‘선호 학습’ 방식으로, 각 λ값에 대한 정확도와 비용(토큰 수)을 쌍(pair) 형태로 라벨링하고, 경량 라우터가 어느 λ가 더 우수한지를 이진 분류하도록 학습한다. 이 접근법은 정확도와 효율성을 동시에 고려하면서 라벨 노이즈에 강인하고, 적은 데이터로도 일반화가 가능하다. 두 번째인 DAMI‑Conf는 무학습 방식으로, Instruct와 Thinking 두 모델의 자체 신뢰도 C_I(q), C_T(q)를 계산하고, ‘전체 모호성’(1‑C_I+ C_T)/2와 ‘인지 불일치’|C_I‑C_T|를 결합해 λ(q)=σ(S_final‑μ/τ) 로 변환한다. 이 방법은 모델 아키텍처에 독립적이며, 사전 데이터가 전혀 없는 상황에서도 즉시 적용할 수 있다.
실험에서는 GSM8K, Math‑500, AMC, AIME24, AIME25 등 5개의 수학 추론 벤치마크에 대해 DAMI‑Pref와 DAMI‑Conf 모두 Thinking 모델 대비 정확도 향상(1.6‑3.4%)과 토큰 절감(29‑40%)을 달성했다. 특히, 정적 모델 병합이나 조기 종료, 라우팅 기반 방법보다 전반적인 파레토 효율성이 우수했으며, λ(q) 추정 정확도 역시 두 방법 모두 높은 상관관계를 보였다. 이러한 결과는 파라미터 보간이 단순한 가중 평균을 넘어, 모델 내부의 인지 메커니즘을 연속적으로 조절할 수 있는 강력한 도구임을 입증한다.
마지막으로 논문은 다음과 같은 기여를 정리한다. (1) 출력 제어에서 능력 제어로 패러다임을 전환하고, 동적 모델 보간을 통한 저비용 구현 방안을 제시한다. (2) 질문별 λ(q) 추정을 위한 선호 학습 기반과 신뢰도 기반 두 가지 상호 보완적 방법을 설계한다. (3) 다양한 벤치마크와 모델군에 걸쳐 파레토 최적성을 지속적으로 개선함으로써, 시스템 1과 시스템 2의 장점을 조화롭게 결합한다는 실증적 증거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기