잠재 사고 조정: 맥락과 추론을 융합한 잠재 토큰 설계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LT‑Tuning은 기존 연쇄 사고(CoT)의 텍스트 기반 한계를 넘어, 연속적인 잠재 공간에서 추론하도록 설계된 프레임워크이다. 컨텍스트‑프레딕션 융합 메커니즘으로 숨겨진 상태와 어휘 분포를 결합하고, 신뢰도 기반 동적 토큰 삽입과 3단계 커리큘럼 학습을 통해 특징 붕괴와 불안정성을 완화한다. 실험 결과, 1B‑8B 규모 모델에서 기존 잠재 추론 기법들을 능가한다.

상세 분석

본 논문은 대형 언어 모델(LLM)의 연쇄 사고(CoT) 방식이 텍스트 토큰에 의존함으로써 발생하는 표현 제한과 연산 비용 문제를 지적한다. 최근 제안된 잠재 공간 추론은 이러한 한계를 극복하려 하지만, 숨겨진 상태를 그대로 입력 임베딩으로 재사용하는 방식은 출력 공간과 입력 임베딩 공간 사이의 분포 불일치(distribution mismatch)를 야기해 특징 붕괴(feature collapse)와 학습 불안정을 초래한다. LT‑Tuning은 두 가지 핵심 아이디어로 이를 해결한다. 첫째, Context‑Prediction Fusion 메커니즘은 이전 레이어의 숨겨진 상태 (h_{t-1}^{I})와 현재 토큰에 대한 확률 가중 어휘 임베딩 (e_{pred})를 가중 평균((\alpha))하여 새로운 잠재 토큰 (z_t)를 만든다. 이렇게 하면 모델은 컨텍스트 정보를 보존하면서도 어휘 분포가 제공하는 의미적 가이드를 반영해 입력 임베딩 공간에 더 잘 맞는다. 둘째, Confidence‑Driven Dynamic Insertion 전략은 모델의 예측 신뢰도 (p_\theta(y_t|y_{<t}))가 사전 정의된 임계값 (\tau) 이하일 때만 <thinking> 토큰을 삽입한다. 이는 불확실한 단계에만 잠재 추론을 할당해 연산 효율을 높이고, 쉬운 단계에서는 기존 텍스트 CoT를 그대로 사용한다. 학습은 세 단계 커리큘럼으로 진행된다. 1단계에서는 순수 CoT 데이터로 기본 추론 능력을 확보하고, 2단계에서는 신뢰도 기반 <thinking> 토큰을 삽입해 초기 잠재 토큰을 학습한다. 마지막 3단계에서는 위의 Fusion 방식을 도입해 잠재 토큰의 품질을 정교화한다. 실험에서는 Llama‑3.2‑1B, 3B, 8B 모델을 GSM8K, ASDiv‑Aug, MultiArith, SVAMP 등 네 개의 수학 추론 벤치마크에 적용했으며, 기존 Coconut, Soft‑Thinking 등 대비 평균 4.3%p 이상의 정확도 향상을 기록했다. 특히 8B 모델처럼 입력·출력 임베딩이 분리된 경우에도 경량 어댑터를 통해 안정적인 학습이 가능함을 보였다. 전체적으로 LT‑Tuning은 잠재 공간 추론의 핵심 문제인 분포 불일치와 정적 연산 스케줄링을 동시에 해결함으로써, 기존 텍스트 기반 CoT와 잠재 기반 방법 사이의 성능 격차를 크게 줄였다.

잠재 사고 조정: 맥락과 추론을 융합한 잠재 토큰 설계

초록

상세 분석

댓글 및 학술 토론

의견 남기기