잠재 추론의 추론시간 확장, 가우시안 사고 샘플러로 제어하기

**1. 서론 및 배경** 추론시간 확장(ITS)은 테스트 단계에서 추가 연산을 할당해 여러 추론 경로를 생성하고, 그 중 최적의 답을 선택함으로써 LLM의 성능을 향상시키는 기법이다. 토큰 기반 LLM에서는 다음 토큰에 대한 명시적 확률 분포가 존재해 온도, nucleus sampling 등으로 직접 탐색을 제어한다. 그러나 최근 연속 잠재 추론 모델(예: COCO‑NUT, 기타 latent reasoning 프레임워크)은 중간 단계가 숨겨진 상태의 결정적 변환으로 이루어져, 확률적 정책이 자연스럽게 정의되지 않는다. 이 때문에 기존 연구들은 드롭아웃, 고정 가우시안 노이즈와 같은 휴리스틱 교란을 삽입해 stochasticity를 부여했지만, 이는 “어디를 탐색할지”에 대한 명시적 지시가 없으므로 탐색 품질이 보장되지 않는다. **2. 휴리스틱 교란의 한계 분석** 논문은 두 모델(GPT‑2 기반 텍스트 추론, COCO‑NUT 기반 잠재 추론)에서 다양한 교란 강도(p=0.1, 0.5)와 고정 노이즈를 적용해 샘플링 품질을 정량화한다. 측정 지표는 (1) Sampling Gain(SG): 정답 토큰에 대한 로그오즈 변화, (2) SG Rate: SG>0인 입력 비율, (3) Jensen‑Shannon Divergence(JS): 교란이 만든 답변 분포와 원본 분포 간 차이. 결과는 강한 교란이 JS를 크게 증가시키지만, SG와 SG Rate는 오히려 감소함을 보여준다. 즉, 분포 이동이 크다고 해서 올바른 답을 찾는 데 도움이 되지 않는다. 특히 잠재 모델에서는 강한 드롭아웃이 오히려 성능을 저하시킨다. **3. Gaussian Thought Sampler(GTS) 설계** GTS는 각 추론 단계 k에서 현재 결정적 숨겨진 상태 h_det^k를 입력으로 받아, 평균 µ_ϕ(c_k)와 표준편차 σ_ϕ(c_k)를 출력하는 MLP 기반 가우시안 정책 q_ϕ(z_k|c_k)를 학습한다. 여기서 z_k는 h_det^k에 더해지는 교란이며, 재파라미터화(z_k = µ + σ⊙ε, ε~N(0,I))를 통해 미분 가능하게 만든다. 교란 후의 상태 ˜h_k = h_det^k + z_k는 그대로 백본에 전달돼 다음 단계 연산에 사용된다. 이렇게 하면 백본은 완전히 동결된 채, GTS만이 탐색 정책을 제어한다. **4. 정책 학습 방법** 탐색 정책은 연속 행동(z_k)으로 간주하고, 강화학습 프레임워크에서 보상을 정의한다. 보상 r(i) = 2·I

잠재 추론의 추론시간 확장, 가우시안 사고 샘플러로 제어하기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기