RelayGen 효율적인 추론을 위한 구간 기반 모델 전환

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RelayGen은 대형 추론 모델(LRM)의 출력 내에서 난이도가 변하는 구간을 탐지해, 어려운 구간은 큰 모델이, 쉬운 구간은 작은 모델이 담당하도록 런타임에 자동 전환하는 학습‑프리 프레임워크이다. 토큰 확률 마진을 이용한 오프라인 분석으로 전환 신호(스위치 큐)를 선정하고, 추론 단계와 답변 단계에 맞춰 모델을 교체함으로써, 정확도 손실을 최소화하면서 최대 2.2배의 지연 감소를 달성한다.

상세 분석

본 논문은 대형 추론 모델(LRM)이 생성하는 긴 추론 텍스트가 “추론 단계”와 “답변 단계”로 명확히 구분된 구조를 가진다는 관찰에서 출발한다. 추론 단계에서는 복합적인 사고, 자기 검증, 반성 등이 반복되며 토큰 확률 마진이 크게 변동한다. 반면 답변 단계는 이미 형성된 추론 결과를 요약·정리하는 과정이므로 마진이 높아 확신도가 높다. 이러한 난이도 이질성은 기존의 입력‑레벨 라우팅(전체 입력에 하나의 모델 할당)이나 토큰‑레벨 라우팅(매 토큰마다 별도 라우터 필요)과는 달리, 구간‑레벨 전환만으로도 충분히 포착할 수 있다.

핵심 기술은 두 단계로 구성된다. 첫째, 대형 모델(Qwen‑3‑32B 등)로 다수의 샘플을 생성하고 각 토큰의 top‑1과 top‑2 확률 차이인 “확률 마진”을 계산한다. 이어서 문장 수준의 전환 신호(예: “따라서”, “하지만”, “잠시”)가 등장한 뒤의 평균 마진을 전체 평균 마진과 비교한다. 마진이 평균보다 일정 수준(표준 오차 1배 이상) 높게 유지되는 신호를 “스위치 큐”로 선정한다. 이 과정은 오프라인 통계 분석에 불과해 추가 학습이나 파라미터 튜닝이 전혀 필요하지 않다.

둘째, 런타임에서는 대형 모델이 추론 단계 초반을 담당하고, 스위치 큐가 감지되면 즉시 작은 모델(예: Qwen‑3‑0.6B)에게 현재 문장 이후의 토큰 생성을 위임한다. 답변 단계에 진입하면 전체를 작은 모델이 담당한다. 이때 작은 모델은 대형 모델이 만든 KV‑cache를 그대로 활용하므로, 토큰당 연산량은 감소하지만 컨텍스트 손실은 최소화된다.

실험 결과, AIME 2025, GPQA‑Diamond 등 복합 추론 벤치마크에서 RelayGen은 스펙터티브 디코딩과 결합했을 때 평균 2.2배의 지연 감소와 2% 미만의 정확도 저하를 기록한다. 특히 답변 단계만을 작은 모델에 위임했을 때 99.86%의 일치율을 보이며, 작은 모델이 고난이도 추론을 담당하면 정확도가 급격히 떨어지는 것을 확인했다. 이는 “난이도‑맞춤 모델 할당”이 추론 효율성 향상의 핵심임을 실증한다.

또한 토큰‑레벨 라우팅이 필요로 하는 복잡한 라우터 학습·배포 파이프라인을 회피함으로써, 실제 서비스 환경에서 구현 비용과 유지보수 부담을 크게 낮춘다. 구간‑레벨 전환은 스펙터티브 디코딩과도 자연스럽게 호환돼, 두 기법을 병행하면 더욱 큰 속도 향상을 기대할 수 있다.

요약하면, RelayGen은 (1) 대형 모델의 생성 불확실성을 정량화하고, (2) 모델‑특정 전환 신호를 기반으로 구간‑레벨 모델 스위치를 수행하며, (3) 추가 학습 없이 기존 파이프라인에 바로 적용 가능한 효율적인 추론 가속 기법이다.

RelayGen 효율적인 추론을 위한 구간 기반 모델 전환

초록

상세 분석

댓글 및 학술 토론

의견 남기기