연쇄 사고와 잠재 사고의 형식적 비교
초록
본 논문은 대형 언어 모델에서 중간 토큰을 명시적으로 생성하는 연쇄 사고(Chain of Thought, CoT)와 연속적인 은닉 공간에서 직접 연산하는 잠재 사고(Latent Thought)의 계산적 특성을 형식적으로 비교한다. 복잡도 이론을 활용해 잠재 사고가 병렬 계산 측면에서 CoT보다 효율적이며, 반대로 CoT는 확률적 디코딩을 통해 근사 카운팅과 샘플링을 수행할 수 있음을 증명한다. 이를 통해 두 추론 패러다임이 적합한 작업 유형에 대한 실용적 가이드라인을 제시한다.
상세 분석
논문은 먼저 연쇄 사고와 잠재 사고를 각각 수학적으로 정의한다. CoT는 디코더‑전용 트랜스포머가 입력 시퀀스에 토큰을 순차적으로 이어 붙이며, 각 단계에서 이전 토큰들을 KV‑캐시로 재활용한다. 반면, Coconut과 루프드 트랜스포머(Looped TF)는 은닉 상태를 직접 업데이트하고, 전체 시퀀스를 매 반복마다 재계산한다. 이러한 차이를 바탕으로 저자들은 두 모델을 Boolean 회로 복합도와 연결시킨다. 고정 깊이 트랜스포머는 TC⁰에 제한되지만, CoT는 로그(k)·n 단계의 반복을 통해 TCᵏ에 도달한다는 기존 결과를 확장한다. 핵심 정리는 다음과 같다. (1) 잠재 사고는 깊이‑우선으로 DAG(Directed Acyclic Graph) 연산을 수행할 때, 그래프의 깊이(depth)만큼의 반복으로 전체 연산을 병렬 처리할 수 있다. 이는 TCᵏ와 동등한 계산 능력을 정확히 포착한다(Thm. 3.12). (2) CoT는 노드‑단위로 순차적으로 토큰을 생성하므로, 그래프의 전체 크기(size)에 비례하는 단계가 필요하고, 동일한 로그(k)·n 반복으로는 TCᵏ의 모든 함수를 구현하지 못한다(Thm. 3.13). 따라서 polylogarithmic 구간에서 잠재 사고가 더 적은 반복으로 동일한 계산을 수행한다는 엄격한 구분이 성립한다. (3) 확률적 측면에서 CoT는 디코딩 과정에서 샘플링을 수행하므로, FPRAS(Fully Polynomial‑time Randomized Approximation Scheme)를 구현할 수 있다. 이는 #P‑완전 문제의 근사 카운팅을 가능하게 하며, 기존의 결정적 잠재 사고가 접근하기 어려운 분포를 근사·샘플링할 수 있음을 보인다(Thm. 4.3, 4.4). 이러한 두 축—병렬 효율성 vs. 확률적 근사—은 각각의 추론 패러다임이 최적화될 작업 유형을 명확히 구분한다. 논문은 또한 실험적 관점에서 KV‑캐시와 연산량 재계산 사이의 트레이드오프를 논의하며, 실제 하드웨어에서 두 접근법의 레이턴시가 비슷하게 유지될 수 있음을 제시한다. 전체적으로, 이 연구는 복잡도 이론을 LLM 추론에 적용함으로써, CoT와 잠재 사고가 서로 보완적인 강점을 갖는다는 점을 이론적으로 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기