잠재 상태 전이 기반 체인오브쓰리 추론 프레임워크

잠재 상태 전이 기반 체인오브쓰리 추론 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CTRLS는 체인오브쓰리(CoT) 추론을 잠재 상태 전이 마르코프 결정 과정(MDP)으로 모델링하고, 분포형 강화학습을 이용해 상태‑의존적 탐색을 수행한다. 잠재 공간에서 행동을 확률분포로 표현함으로써 불확실성을 명시하고, 온‑정책 학습과 엔트로피 정규화를 통해 LLM을 추가 파인튜닝 없이 전이 다이나믹스를 지속적으로 개선한다. 실험 결과, 기존 CoT 대비 정확도, 다양성, 탐색 효율이 모두 향상되었다.

상세 분석

CTRLS는 기존 CoT가 “토큰‑레벨 자동회귀”에 머무르는 한계를 극복하기 위해, 추론 과정을 “잠재 의미 상태”의 연속적인 전이로 재구성한다. 논문은 이를 MDP(상태 S, 행동 A, 전이 P, 보상 R, 할인 γ)로 정의하고, 상태 sₜ를 현재 프롬프트와 이전 추론 단계들을 인코딩한 연속 벡터로 설정한다. 전이 모델 Pθ(sₜ₊₁|sₜ, aₜ)는 잠재 공간에서의 확률적 변화를 학습하며, 행동 aₜ는 다음 추론 단계에 대한 확률분포(Dirichlet)로 표현된다. 이렇게 하면 “어떤 논리적 단계가 선택될 확률이 얼마인가”를 명시적으로 추정할 수 있어, 에피스틱 불확실성을 정량화하고 탐색 전략을 설계하기가 용이해진다.

분포형 강화학습(DRL)을 적용한 점이 핵심이다. 기존 RL은 보통 결정적 정책이나 이산 행동을 가정하지만, CTRLS는 정책 πθ가 잠재 행동에 대한 확률분포를 출력하도록 설계한다. 이는 베일리안 관점에서 행동의 불확실성을 직접 모델링하는 것이며, 분포형 벨만 연산 T_Z을 통해 기대 보상뿐 아니라 보상의 전체 분포를 업데이트한다. 결과적으로 탐색 단계에서 “다양한 가능성”을 유지하면서도, 보상이 높은 경로로 점진적으로 수렴한다.

학습 목표는 ELBO(증거 하한)를 최적화하는 변분 프레임워크와 결합된다. 인코더 ρϕ는 입력 텍스트를 잠재 상태로 매핑하고, 변분 포스터리어 Qϕ(z₁:T|x₁:T)를 자동회귀적으로 factorize한다. 전이 정책과 LLM 어댑터(Pω)는 공동으로 학습되며, 두 단계(오프라인 사전학습 → 온‑정책 강화학습)로 구성된 파이프라인을 통해 초기 잠재 표현을 확보한 뒤, 실제 과제 보상(정답 일치 여부)으로 정책을 미세조정한다.

탐색 효율성을 높이기 위해 ε‑greedy와 엔트로피 정규화를 병행한다. ε‑greedy는 일정 확률로 무작위 전이를 시도해 새로운 경로를 탐색하게 하고, 엔트로피 정규화는 정책이 과도하게 한쪽으로 몰리는 것을 방지한다. 이렇게 하면 “조기 수렴” 문제를 완화하고, 다양한 추론 트레일을 생성해 모델의 설명 가능성을 높인다.

실험에서는 GSM8K, MathQA 등 복합 수리·논리 벤치마크에서 기존 CoT(Zero‑shot CoT, Self‑Consistency 등) 대비 정확도가 2~5%p 상승했으며, 생성된 추론 단계의 다양성 지표(예: n‑gram 다양성, 트레일 수)도 크게 개선되었다. 특히, 동일 프롬프트에 대해 여러 상이한 논리 흐름을 제공함으로써 인간 검증자가 선택할 수 있는 후보 풀이가 늘어났다는 점이 강조된다.

전체적으로 CTRLS는 “잠재 상태 전이”라는 구조적 관점을 도입해 CoT의 불확실성을 정량화하고, 강화학습 기반 탐색을 통해 보다 견고하고 설명 가능한 추론을 가능하게 만든다. 이 접근은 LLM 자체를 재학습하지 않고도 전이 다이나믹스를 조정할 수 있다는 실용적 장점도 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기