대규모 추론 모델을 위한 추론 법칙과 벤치마크
📝 원문 정보
- Title:
- ArXiv ID: 2512.17901
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
대규모 추론 모델(LRM)은 뛰어난 성능을 보이지만, 그 추론 행동이 직관에 맞지 않아 최적 이하의 추론 능력을 보이는 경우가 많다. 이러한 바람직한 추론 행동을 이론적으로 정형화하기 위해 본 논문은 추론 법칙(LORE)이라는 통합 프레임워크를 제시한다. 먼저 질문 복잡도에 비례해 추론 연산량이 선형적으로 증가해야 한다는 가설을 담은 계산 법칙을 제안한다. 계산 외에도 정확도 법칙을 보완적으로 도입한다. 질문 복잡도를 직접 측정하기 어려운 현실을 고려해, 우리는 두 가지 속성인 단조성 및 구성성을 통해 법칙을 검증한다. 이를 위해 LORE‑BENCH라는 벤치마크를 설계하여 대규모 추론 모델의 단조성 및 구성성을 체계적으로 측정한다. 실험 결과 대부분의 모델이 합리적인 단조성을 보이지만 구성성에서는 부족함을 드러냈다. 이에 우리는 계산 법칙의 구성성을 강제하는 효과적인 파인튜닝 방법을 개발하였다. 광범위한 실험을 통해 계산 법칙 준수가 여러 벤치마크에서 일관된 성능 향상을 가져오며, 속성 및 법칙 간 시너지 효과가 존재함을 확인하였다. 프로젝트 페이지: https://lore-project.github.io/💡 논문 핵심 해설 (Deep Analysis)
본 논문은 현재 대규모 언어 모델(Large Language Models, LLM) 기반 추론 시스템이 보여주는 ‘비직관적’ 행동을 정량적·정성적으로 규명하고, 이를 개선하기 위한 이론적 기반을 제공한다는 점에서 의미가 크다. 먼저 저자들은 ‘추론 계산량은 질문 복잡도에 선형적으로 비례한다’는 계산 법칙을 제시한다. 이는 인간이 문제를 풀 때 복잡도가 증가하면 사고 과정이 길어지는 현상을 모델링한 것으로, 모델이 불필요하게 과도한 연산을 수행하거나 반대로 충분히 복잡한 문제에 대해 연산을 축소하는 현상을 방지한다. 그러나 질문 복잡도를 직접 측정하기는 어려우므로, 논문은 두 가지 대리 지표인 **단조성(monotonicity)** 과 **구성성(compositionality)** 을 도입한다. 단조성은 질문의 난이도가 증가하면 모델의 연산량·오차가 비감소해야 함을 의미하고, 구성성은 복합 질문이 단순 질문들의 연산량 합과 일관된 관계를 유지해야 함을 뜻한다.LORE‑BENCH는 이러한 속성을 정량화하기 위해 설계된 벤치마크로, 다양한 난이도와 구조를 가진 추론 문제를 체계적으로 배치한다. 실험에서는 대표적인 LRM(예: GPT‑4, Claude, LLaMA 등)을 평가했으며, 대부분이 단조성은 만족하지만 구성성에서는 현저히 낮은 점수를 기록했다. 이는 모델이 복합적인 논리 구조를 내부적으로 재사용하지 못하고, 각 서브문제에 대해 독립적인 연산을 수행한다는 것을 시사한다.
이에 대한 해결책으로 저자들은 컴퓨트 법칙 기반 파인튜닝을 제안한다. 구체적으로는, 모델이 서브문제들의 연산량 합과 전체 문제의 연산량 사이에 선형 관계를 학습하도록 손실 함수를 설계하고, 이를 대규모 데이터셋에 대해 추가 학습한다. 결과적으로 파인튜닝된 모델은 구성성 점수가 크게 향상되었으며, 이는 곧 기존 추론 벤치마크(예: GSM‑8K, MATH, ARC)에서 전반적인 정확도 상승으로 이어졌다. 흥미로운 점은, 계산 법칙 준수가 정확도 법칙(정답률)과도 양의 상관관계를 보였다는 점이다. 즉, 연산량을 ‘합리적으로’ 배분하면 모델이 더 일관된 논리 흐름을 유지하고, 오류 전파를 억제하게 된다.
이 논문의 한계도 존재한다. 질문 복잡도의 정의가 아직도 추상적이며, 단조성·구성성 외에 다른 중요한 추론 특성(예: 불확실성 관리, 메타‑추론) 등을 포괄하지 않는다. 또한 파인튜닝 과정에서 추가된 연산 비용과 데이터 요구량이 실용적인 적용에 장애가 될 수 있다. 그럼에도 불구하고, LORE라는 프레임워크와 LORE‑BENCH는 추론 모델을 평가하고 개선하는 새로운 패러다임을 제시한다는 점에서 학계·산업계 모두에게 큰 영향을 미칠 것으로 기대된다.