오리온: 사고 효율을 위한 언어 모델 훈련

읽는 시간: 4 분
...

📝 원문 정보

  • Title: ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
  • ArXiv ID: 2511.22891
  • 발행일: 2025-11-28
  • 저자: Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee

📝 초록 (Abstract)

대규모 추론 모델(LRM)은 수학, 코드 생성, 작업 계획 등에서 최첨단 성능을 보이지만, 길고 중복된 “생각” 토큰을 사용해 지연 시간과 비용이 크게 증가한다. 인간의 사고가 상징적이고 조합적인 정신 언어(Mentalese) 위에서 이루어진다는 언어‑사고 가설에 착안해, 우리는 초압축된 구조화 토큰으로 추론을 표현하는 Mentalese 기반 프레임워크를 제안한다. 이를 위해 짧은 길이 선호 최적화(SLPO)라는 강화학습 기법을 도입해, 정확성을 유지하면서도 토큰 수를 최소화하도록 모델을 직접 학습시킨다. ORION 모델은 AIME 2024·2025, Minerva‑Math, OlympiadBench, Math500, AMC 등 수학 벤치마크에서 기존 DeepSeek R1 Distilled 대비 4‑16배 적은 토큰, 최대 5배 낮은 추론 지연, 7‑9배 적은 학습 비용을 달성하면서 90‑98% 수준의 정확도를 유지한다. 또한 Claude와 ChatGPT‑4o를 능가하는 정확도와 2배 이상의 압축률을 동시에 보여준다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 현재 대규모 언어 모델이 추론 과정에서 발생하는 비효율성을 근본적으로 해결하려는 시도로서, 인지 과학의 ‘언어‑사고 가설(Language of Thought Hypothesis)’을 모델 설계에 직접 적용한 점이 가장 혁신적이다. 기존 LRM은 “생각” 토큰을 순차적으로 나열함으로써 인간이 문제를 단계별로 풀어가는 방식을 모방하지만, 이는 토큰 수가 급증하고 연산 비용이 비례적으로 늘어나는 구조적 한계를 내포한다. 저자들은 이러한 한계를 극복하기 위해 Mentalese라는 초압축된 내부 표현 체계를 도입한다. Mentalese는 추론의 핵심 논리 구조를 최소한의 토큰으로 인코딩함으로써, 복잡한 수학적 증명이나 코드 흐름을 몇 개의 고차원 심볼로 요약한다. 이때 중요한 점은 압축이 단순히 토큰을 줄이는 것이 아니라, 의미론적 일관성과 조합성을 보존한다는 것이다.

이를 실현하기 위한 핵심 알고리즘이 ‘짧은 길이 선호 최적화(SLPO)’이다. SLPO는 강화학습 프레임워크 내에서 두 가지 보상을 동시에 최적화한다. 첫 번째는 ‘정답 보상’으로, 모델이 생성한 추론이 정답과 일치하거나 높은 정확도를 보일 때 부여된다. 두 번째는 ‘길이 보상’으로, 동일한 정확도 수준에서 토큰 수가 적을수록 추가 보상이 주어진다. 이러한 다중 목표 최적화는 모델이 “필요한 만큼만 생각하고, 불필요하게 길어지는 경로는 스스로 억제”하도록 학습시킨다. 특히 SLPO는 길이 제한을 고정하지 않고, 문제 복잡도에 따라 동적으로 허용 토큰 수를 조정하도록 설계돼, 단순히 모든 문제를 동일한 압축률로 처리하는 기존 방식보다 유연성을 크게 향상시킨다.

실험 결과는 ORION 모델이 다양한 수학 벤치마크에서 4‑16배 토큰 감소, 최대 5배 추론 지연 감소, 7‑9배 학습 비용 절감을 달성했음에도 불구하고 90‑98% 수준의 정확도를 유지한다는 점에서 그 효용성을 입증한다. 특히 AIME와 같은 고난이도 시험 문제에서도 기존 DeepSeek R1 대비 압축률이 높은 상황에서도 정확도 격차가 미미하거나 오히려 개선된 점은 Mentalese 기반 압축이 단순한 ‘줄이기’가 아니라 ‘핵심 논리 유지’를 성공적으로 구현했음을 시사한다. 또한 Claude와 ChatGPT‑4o와 비교했을 때 정확도에서 5%p 상승과 2배 이상의 압축률을 동시에 달성한 것은 현재 상용 LLM이 직면한 실시간 추론 및 비용 효율성 문제에 대한 실질적인 대안이 될 수 있음을 보여준다.

이러한 결과는 앞으로 LLM이 인간과 유사한 인지 효율성을 갖추는 방향성을 제시한다. 즉, 모델이 내부적으로 고차원 논리 심볼을 활용해 ‘생각’ 자체를 압축하고, 필요 시에만 상세한 전개를 수행함으로써, 실시간 응용(예: 교육, 과학 탐구, 실시간 코딩 보조)에서의 지연과 비용을 크게 낮출 수 있다. 향후 연구에서는 Mentalese 토큰의 설계 원리를 다른 도메인(예: 물리 시뮬레이션, 법률 논증)으로 확장하고, SLPO와 같은 동적 길이 최적화 기법을 멀티모달 모델에 적용하는 방안을 모색할 필요가 있다.

📄 논문 본문 발췌 (Translation)

대규모 추론 모델(LRM)은 수학, 코드 생성 및 작업 계획 분야에서 최첨단 성능을 달성하고 있으나, 길고 중복된 “생각” 토큰에 의존함으로써 높은 지연 시간, 중복성 및 일관성 없는 추론 경로라는 문제점을 안고 있다. 인간의 사고가 상징적이고 조합적인 정신 언어인 Mentalese 위에서 이루어진다는 언어‑사고 가설에 영감을 받아, 우리는 모델이 유사한 압축된 형태로 사고하도록 훈련시키는 인지적으로 동기화된 프레임워크를 제안한다. Mentalese는 추상적 추론을 초압축된 구조화 토큰으로 인코딩하여, 모델이 복잡한 문제를 훨씬 적은 단계로 해결할 수 있게 한다. 효율성과 정확성을 동시에 달성하기 위해, 우리는 짧은 길이 선호 최적화(SLPO)라는 강화학습 방법을 도입하였다. SLPO는 정확성을 유지하면서도 짧은 해결책을 보상함으로써, 복잡도에 따라 필요 시 더 긴 추론을 허용하는 유연성을 제공한다. Mentalese에 정렬된 모델에 적용될 때, SLPO는 압축률을 크게 확대하여 상세한 사고의 장점을 유지하면서도 계산 오버헤드를 최소화한다. 이를 통해 우리는 성능‑효율성 파레토 프론티어 상에서 각 압축 수준별 최상의 모델을 제시한다. 수학 벤치마크(AIME 2024·2025, Minerva‑Math, OlympiadBench, Math500, AMC) 전반에 걸쳐 ORION 모델은 토큰 수를 4‑16배 감소시키고, 추론 지연을 최대 5배 낮추며, DeepSeek R1 Distilled 대비 학습 비용을 7‑9배 절감하면서도 기본 정확도의 90‑98%를 유지한다. 또한 ORION 모델은 Claude와 ChatGPT‑4o를 능가하는 정확도와 2배 이상의 압축률을 동시에 달성한다. 우리의 연구 결과는 Mentalese‑스타일 압축 추론이 인간과 유사한 인지 효율성을 제공하는 획기적인 접근법임을 입증하며, 실시간·비용 효율적인 추론을 가능하게 하는 새로운 가능성을 열어준다.

📸 추가 이미지 갤러리

Effcot_responses_comp_v9.png Mentalese_def_v2.png agentica_all_metrics_comparison.png clean_performance_efficiency_frontier_v5.png human-vs-machine_v1.png multi_model_violin_comparison.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키