단일 수정 단계로 토큰 효율적인 LLM 추론 강화
초록
본 논문은 다중 추론 경로를 생성한 뒤, 각 경로가 서로의 결론을 검토하도록 하는 “패킷‑조건부 수정(PACER)” 방식을 제안한다. 짧은 요약 패킷(답안 후보, 집계 신뢰도, 대표 논리 요약)을 기반으로 각 트레이스가 자체 재검토를 수행하도록 함으로써, 고신뢰도이지만 잘못된 경로를 교정하고, 토큰 비용을 크게 늘리지 않으면서도 256‑샘플 다수결과 동등하거나 더 높은 정확도를 달성한다.
상세 분석
PACER는 기존의 다중 샘플링‑다수결(self‑consistency) 방식이 갖는 “각 트레이스를 독립적으로 평가한다”는 근본적인 한계를 극복한다. 먼저 DeepConf‑Online과 같은 토큰‑효율적 조기 종료 기법으로 N try 만큼의 시도를 수행하고, 안정성 점수 S(τ) 를 기반으로 조기 중단된 시도를 걸러낸다. 이렇게 얻어진 ‘안정 풀(stable pool)’에서 답안별 최고 안정성을 보이는 대표 트레이스를 선택하고, 각 후보 답안에 대해 (답안, 집계 신뢰도, 대표 논리 요약)이라는 3‑요소를 담은 ‘컨센서스 패킷’으로 압축한다.
핵심은 이 패킷을 각 트레이스에 다시 입력해 “조건부 자기‑리뷰”를 시키는 단계이다. 모델은 “내 기존 결론이 패킷에 비해 얼마나 약한가?”를 판단하고, 필요 시 최종 답안을 전환한다. 이때 사용되는 프롬프트는 “다른 트레이스들이 제시한 요약을 고려해, 현재 결론이 설득력 있는가?”와 같은 형태로, 모델이 논리적 교차 검증을 수행하도록 설계되었다.
리비전 후에는 기존의 Confidence‑Weighted Voting(CWV) 방식을 그대로 적용한다. 여기서 각 트레이스의 가중치는 여전히 prefix stability S(τ) 이지만, 리비전 과정을 거친 뒤라 더 높은 신뢰도를 가진 트레이스가 늘어나 전체 집계가 개선된다.
이론적 분석(섹션 5)에서는 “수리‑손상 조건”을 도입해, 리비전이 기대 정확도를 향상시키는 충분조건을 제시한다. 즉, 패킷에 포함된 정답 후보가 실제 정답을 포함하고, 대표 논리가 충분히 차별화될 때, 리비전 단계는 오히려 정확도를 감소시키지 않는다.
실험에서는 AIME, BRUMO, HMMT 등 고난이도 수학 벤치마크에서 PACER가 256‑샘플 다수결과 동등하거나 상회하는 성능을 보이며, 토큰 사용량은 약 30‑40 % 절감한다. 특히 HMMT 2025에서는 DeepConf‑Online 대비 +10 % 절대 정확도 향상을 기록했다.
전체적으로 PACER는 (1) 훈련‑무료, (2) 단일 라운드 협업, (3) 토큰 효율성 유지라는 세 축을 모두 만족시키는 실용적인 테스트‑타임 조정 메커니즘으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기