LLM 적성에 맞춘 적응형 수학 추론 프레임워크 TATA

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 자체 능력에 따라 체인‑오브‑생각(CoT)과 도구‑통합 추론(TIR) 중 최적의 전략을 자동으로 선택하도록 학습시키는 TATA 프레임워크를 제안한다. 베이스 모델의 성향을 고려한 데이터 선택을 통해 SFT 단계에서 CoT와 TIR 솔루션을 적절히 배치하고, 테스트 시 모델이 스스로 적합한 추론 방식을 결정하도록 만든다. 6개 수학 벤치마크에서 일반‑목적 및 수학 특화 LLM에 적용한 결과, TATA는 성능을 유지하거나 향상시키면서 TIR 대비 추론 효율성을 크게 개선하였다.

상세 분석

TATA는 기존의 CoT‑중심 혹은 TIR‑중심 SFT 접근법이 갖는 단점을 보완한다는 점에서 의미가 크다. 먼저, 저자는 “베이스‑LLM‑인식 데이터 선택”이라는 새로운 기준을 도입한다. 구체적으로, 후보 데이터셋 D에서 각 문제에 대해 CoT와 TIR 두 형태의 솔루션을 모두 준비하고, 별도로 구성한 앵커 셋(D_anchor)을 이용해 현재 베이스 모델이 각각의 형식으로 한 샷 프롬프트를 받았을 때의 정확도를 측정한다. 이때 얻은 평균 정확도 S_k^CoT와 S_k^TIR을 비교해, 해당 문제에 대해 어느 형식이 더 큰 기여를 하는지를 정량화한다. 이렇게 산출된 점수는 모델이 실제 학습 단계에서 어떤 형식의 데이터를 더 많이 보게 할지를 결정하는 기준이 된다. 즉, 모델이 CoT에 강하면 CoT 솔루션을, TIR에 강하면 TIR 솔루션을 주입함으로써 “자기 적성에 맞는” 학습을 수행한다.

두 번째 핵심은 “암묵적 지시 튜닝(IIT)” 개념을 활용해 SFT 없이도 일종의 프롬프트 기반 미세조정을 구현한다는 점이다. 한 샷 예시로 CoT 혹은 TIR 솔루션을 제공하면, 모델 내부의 어텐션 메커니즘이 해당 형식에 대한 암묵적 지시를 학습한다. 이는 실제 파라미터 업데이트 없이도 모델이 특정 추론 패턴을 선호하도록 만드는 효과를 낸다. 따라서 TATA는 기존의 대규모 파라미터 업데이트 비용을 크게 절감하면서도, 추론 시점에 자동 전략 전환 능력을 부여한다.

실험에서는 Llama‑3‑8B와 Qwen2.5‑Math‑7B 같은 일반‑목적 및 수학‑특화 모델을 대상으로 GSM‑8K, MATH, SVAMP 등 6개 벤치마크를 평가하였다. 결과는 TATA가 단일 CoT 혹은 단일 TIR SFT 대비 평균 1.2~2.5%p의 정확도 향상을 보였으며, 특히 복잡한 수치 계산이 요구되는 문제에서는 TIR을, 논리적 추론이 중심인 문제에서는 CoT를 선택함으로써 효율적인 연산 비용 절감을 확인했다. 또한, 앵커 셋 크기와 클러스터링 방법에 대한 민감도 분석을 통해 데이터 선택 단계가 전체 성능에 결정적인 영향을 미침을 입증하였다. 전체적으로 TATA는 “모델 자체가 자신의 강점을 인식하고 적절히 전략을 전환한다”는 새로운 패러다임을 제시한다.

LLM 적성에 맞춘 적응형 수학 추론 프레임워크 TATA

초록

상세 분석

댓글 및 학술 토론

의견 남기기