다중경로 추론을 위한 동적 탐색·활용 제어, HyPER: 가설 경로 확장·축소 기법
초록
HyPER는 사전 학습된 대형 언어 모델의 테스트 시점에 다중 경로 체인‑오브‑생각(Chain‑of‑Thought)을 동적으로 관리한다. 경로 풀의 신뢰도와 다양성 지표를 실시간으로 모니터링해 탐색(Branch, Multi‑Token)과 활용(Single‑Token, 길이·신뢰도 기반 투표)을 자동 전환함으로써, 고정된 토큰 예산 하에서 정확도는 810% 상승하고 토큰 사용량은 2540% 절감한다.
상세 분석
HyPER는 기존의 두 가지 테스트‑시간 스케일링 패러다임—트리 기반 탐색과 병렬 샘플링—의 한계를 정확히 짚어낸다. 트리 기반 방법은 사전에 정의된 브랜칭 시점에 의존해 탐색을 강제하지만, 이는 모델이 학습한 연속적 사고 흐름을 깨뜨리고 불필요한 연산을 초래한다. 반면 병렬 샘플링은 다수의 완전 경로를 무작위로 생성해 존재 확률을 높이지만, 중복된 경로가 과다하게 소비되는 탐색 편향과, 정답이 존재하더라도 다수의 노이즈 경로에 의해 선택이 흐려지는 존재‑선택 격차 문제를 안고 있다.
HyPER는 이러한 문제를 “단계‑의존적 탐색 효용”이라는 관찰에 기반해 설계한다. 실험(Figure 1)에서 초기 단계에서는 경로 폭을 넓혀 커버리지를 확보하는 것이 유리하지만, 후반부에서는 동일한 폭을 유지하면 토큰 비용만 증가한다는 점을 확인한다. 또한, 올바른 경로와 오류 경로가 대부분 긴 프리픽스를 공유하고 마지막 토큰에서만 갈라진다는(Figure 2a) 사실을 이용해, 전체 경로를 재샘플링하는 대신 낮은 신뢰도 구간만 토큰 수준에서 정제한다는 “Late‑Stage Exploitation” 전략을 도입한다.
HyPER의 핵심은 세 가지 경량 신호이다. (1) 평균 토큰 신뢰도(¯Cₜ)와 엔트로피(Hₜ)로 불확실성을 추정하고, 가장 흔한 다음 토큰 비율(βₜ)으로 집단 합의를 측정한다. (2) 분포‑레벨 발산(D_dist)와 시퀀스‑레벨 편집 거리(D_seq)를 가중합해 다양성(Dₜ) 점수를 산출한다. 이 지표들은 모두 사전 학습 없이 실시간으로 계산 가능하며, 탐색‑활용 전환 기준으로 활용된다.
제어 로직은 일정 간격(T step)마다 현재 풀 상태를 평가해 네 가지 행동 중 하나를 선택한다. Branch는 다양성이 낮을 때 새로운 하위 경로를 생성해 탐색을 확대하고, Multi‑Token은 중간 단계에서 여러 토큰을 동시에 집계해 효율적인 폭 확장을 제공한다. Single‑Token은 MoE 라우팅의 전문가 다양성을 활용해 토큰 수준에서 후보를 다수 생성·집계함으로써 전체 경로를 재생성하지 않고도 오류를 교정한다. 마지막으로, 길이와 신뢰도를 고려한 가중 투표는 존재‑선택 격차를 메우며, 긴 경로가 자연스럽게 신뢰도 보정 효과를 얻도록 설계되었다.
실험에서는 4개의 MoE 기반 LLM(예: Switch‑Transformer, GLaM 등)과 AIME, HMMT 등 다양한 추론 벤치마크에 적용했다. 동일한 토큰 예산 하에서 HyPER는 기존 Self‑Consistency, DeepConf, Thread 등과 비교해 평균 810% 정확도 향상을 보였으며, 토큰 사용량은 2540% 절감했다. 특히, 경로 폭이 128~512 사이에서 존재 확률은 크게 상승하지만 정확도 향상은 미미한 점을 보이며, HyPER는 이 구간에서 탐색을 축소하고 활용을 강화해 효율을 극대화한다.
전체적으로 HyPER는 (1) 탐색‑활용을 단계별로 동적으로 조절하는 온라인 제어기, (2) MoE 라우팅을 이용한 토큰‑레벨 정제 원시 연산, (3) 길이·신뢰도 기반의 선택 메커니즘이라는 세 축을 통해, 사전 파인튜닝 없이도 테스트‑시간 연산 효율을 크게 개선한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기