추론 시 재고: 잠재 사고 벡터로 수학적 추론을 재구성하다
초록
잠재 사고 벡터(z)를 선언적 버퍼로 두고, 디코더가 이를 기반해 추론 과정을 생성한다. 테스트 시에는 후보 추론을 만들고, 그 추론을 최대화하도록 z를 gradient로 조정하는 Gibbs‑style 반복을 수행한다. 0.2 B 파라미터 모델이 30번 재고 후 GSM8K에서 31.5 % 정확도를 달성해 3 B 모델을 능가한다.
상세 분석
이 논문은 기존 체인‑오브‑쓰루(Chain‑of‑Thought) 방식이 한 번의 순방향 패스로 토큰을 고정하고, 초기 오류를 복구할 수 없는 점을 지적한다. 이를 해결하기 위해 저자들은 ‘잠재 사고 벡터(z)’라는 선언적 공간을 도입하고, 이를 전역적인 컨디션으로 활용하는 디코더를 설계한다. z는 무작위 노이즈 z₀를 Transformer 인코더(Uα)로 매핑한 연속 벡터이며, 디코더는 각 레이어에서 cross‑attention을 통해 z에 접근한다. 이렇게 하면 장거리 구조적 정보를 토큰 수준이 아닌 z에 압축시켜, 표면 형태 변동에 강인한 추론 전략을 학습할 수 있다.
학습 단계에서는 변분 하한(ELBO)을 최적화한다. 각 샘플마다 비암시화된 Gaussian 변분 posterior q(z₀)=N(μ,diag(σ²))를 직접 최적화하고, 전역 파라미터 θ=(α,β)는 느린 학습률로 업데이트한다. 빠른 로컬 업데이트와 느린 전역 업데이트를 교대로 수행하는 ‘dual‑rate’ 스킴은 인스턴스‑특화 z를 빠르게 적응시키면서도 전체 모델은 일반적인 추론 패턴을 축적한다. 중요한 점은 변분 인퍼런스 네트워크를 별도로 학습하지 않아 posterior collapse 문제를 회피한다는 것이다.
추론 시에는 Gibbs‑style 절차를 적용한다. (1) 현재 z를 이용해 디코더가 후보 추론 trace xᵣ를 생성하고, (2) 생성된 trace의 로그우도(ELBO)를 최대화하도록 z₀를 gradient descent로 조정한다. 이 과정을 T번 반복하면 초기 오류가 latent space에서 수정되어 새로운 trace가 더 높은 확률을 갖게 된다. 논문은 30번 반복(Rethink‑30)과 단일 패스(Rethink‑1)를 비교해, 반복이 GSM8K에서 5.6 %p, SV‑AMP에서 4.1 %p, MultiArith에서 5.0 %p의 정확도 향상을 가져옴을 보여준다.
실험 결과는 놀라운 효율성을 입증한다. 0.2 B 파라미터 모델이 30번 재고 후 GSM8K 31.5 % 정확도, SV‑AMP 51.5 %, MultiArith 68 %를 기록했으며, 이는 3 B 파라미터 CoT‑SFT(22.7 %)이나 MARCoS‑2B(24.1 %)보다 크게 앞선다. 특히 out‑of‑domain 테스트에서 잠재 사고 벡터가 표면 형태에 덜 민감함을 확인했다. 한계점으로는 고품질 라벨에 의존한다는 점을 들며, 노이즈가 많은 데이터에서는 likelihood가 올바른 추론을 대변하지 않을 위험을 제시한다. 향후 연구 방향으로는 latent verifier를 도입해 사전 검증을 수행하거나, 외부 심볼릭 체크러와 연계한 강화학습 기반 재고를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기