Chronos: 시간 흐름을 활용한 추론 체인 품질 평가와 테스트‑타임 스케일링 향상
초록
Chronos는 LLM이 생성한 추론 체인을 시간 순서대로 토큰 확률 시계열로 변환하고, 다중 스케일 1‑D 컨볼루션 네트워크로 품질 점수를 예측한다. 예측 점수를 가중치로 사용해 다중 샘플을 합산함으로써 기존 다수결·Heuristic 기반 TTS 방법보다 높은 정확도를 달성한다. 학습은 AIME(2000‑2023) 데이터에서 이진 교차 엔트로피로 수행하며, 연산 비용은 미미하다.
상세 분석
Chronos는 테스트‑타임 스케일링(Test‑Time Scaling, TTS) 환경에서 LLM의 추론 체인 품질을 정량화하기 위해 ‘시간적’ 관점을 도입한 점이 가장 큰 혁신이다. 기존 방법은 대부분 다수결(Majority Voting)이나 토큰‑레벨 불확실성, confidence score와 같은 단일 히스토리컬 메트릭을 평균하거나 가중치 없이 적용한다. 이러한 접근은 모든 토큰을 동등하게 취급함으로써, 중간 단계에서 발생하는 논리적 오류나 확률 분포의 급격한 변화를 놓치기 쉽다. Chronos는 이를 보완하기 위해 토큰‑레벨 확률을 시계열 (s = (s_1, …, s_{L_{tail}})) 로 유지하고, 각 시점의 top‑k 로그 확률 평균을 부호화된 값으로 변환한다. 이 값은 ‘피크’와 ‘분산’ 정도를 동시에 반영하므로, 추론 과정 중 어느 구간에서 불확실성이 급증했는지를 포착한다.
모델 아키텍처는 Inception‑style 다중 스케일 1‑D ConvNet을 기반으로 한다. 먼저 1×1 컨볼루션으로 차원을 (N_{Proj}) 로 확장한 뒤, 서로 다른 커널 길이((l\in{10,20,40}) 등)의 1‑D 필터를 병렬 적용한다. 짧은 커널은 로컬 변동(예: 한 단계에서의 급격한 확률 변동)을 감지하고, 긴 커널은 전체 추론 흐름의 장기 트렌드(예: 점진적 확신 증가)를 포착한다. 각 필터 출력은 채널 차원에서 concat 되고, residual 블록을 3번 쌓아 깊은 시계열 특징을 학습한다. 최종적으로 MLP와 sigmoid를 거쳐 스칼라 품질 점수 (\hat y\in
댓글 및 학술 토론
Loading comments...
의견 남기기