자기회귀 추론의 내재적 안정성 한계와 장기 실행 구조적 함의
초록
본 논문은 대형 언어 모델이 자기회귀 방식으로 긴 추론 과정을 수행할 때, 작업 복잡도와 무관하게 내부 노이즈가 누적되어 결정 우위가 지수적으로 감소한다는 이론적 결과(Theorem A)를 제시한다. 이를 통해 단일 연속 실행은 일정 길이(L*)를 초과하면 불안정해지며, 안정적인 장기 추론을 위해서는 구간별 리셋과 같은 구조적 분할이 필요함을 보인다. 실험은 합성 환경과 TextWorld 과제에서 이론적 예측과 일치하는 성능 급락을 확인한다.
상세 분석
논문은 LLM이 “체인‑오브‑생각”이나 “트리‑오브‑생각”과 같은 프롬프트 기법을 이용해 긴 추론을 수행할 때, 근본적인 불안정성 메커니즘이 존재한다는 점을 강조한다. 저자는 추론 과정을 내부 잠재 상태 Zₜ가 시간에 따라 업데이트되는 확률적 동역학 시스템으로 모델링하고, 결정 우위 ρₜ = P(G|Zₜ) – P(¬G|Zₜ) 로 정의한다. 여기서 G는 올바른 결론, ¬G는 그 반대를 의미한다.
핵심 가정은 매 단계마다 노이즈 εₜ(모델 근사 오차, 샘플링 변동, 표현 손실 등)가 비제로이며, 이 노이즈가 누적될 경우 전체 시스템은 수축 계수 η < 1을 갖는 전이 커널 K에 의해 점점 더 불확실해진다. 수학적으로는 전이 후 분포 간 총변동 거리 Δₜ가 Δₜ₊₁ ≤ η·Δₜ 를 만족하고, 이를 반복하면 Δₜ ≤ ηᵗ·Δ₀ 가 된다. 결정 우위 ρₜ는 Δₜ의 상한이므로 ρₜ ≤ ρ₀·e^(−γt) (γ = –ln η > 0) 로 지수 감쇠한다.
이 결과는 임계 길이 L* 를 정의한다. L* = (1/γ)·ln(ρ₀/τ) 로, τ는 실용적인 신뢰 임계값이다. L > L*이면 ρₜ < τ 가 되어 추론 방향성이 무너지며, 모델은 “논리적 표류” 혹은 “환각” 상태에 빠진다.
논문은 두 가지 구조적 시나리오를 비교한다. (1) 단일 긴 엣지: 연속적인 자기회귀 실행만으로 구성된 경우, 위의 지수 감쇠가 그대로 적용돼 장기 안정성이 보장되지 않는다. (2) 구간화된 실행: 일정 길이 이하(ℓᵢ < L*)의 구간마다 상태를 리셋하거나 외부 신호(예: 메모리 압축, DAG 노드)와 결합하면 노이즈 누적을 차단하고 각 구간 내에서 ρₜ를 유지할 수 있다. 따라서 DAG 기반 구조가 자연스럽게 등장하며, 각 노드는 “리셋·압축” 역할을, 각 엣지는 안정 가능한 최대 길이를 의미한다.
실험에서는 (a) 합성 선형 작업(예: 숫자 시퀀스 연산)과 (b) TextWorld 환경에서의 복합 퀘스트 해결을 대상으로 LLM을 실행했다. 결과는 L이 증가함에 따라 정확도가 급격히 하강하고, 특히 L > L* 구간에서 성능 급락이 관측되었다. 구간화(예: 10‑step CoT + 외부 메모리) 전략을 적용하면 성능 저하가 완화되고, 이론적 L*와 실험적 전이점이 일치함을 확인했다.
이 논문이 제시하는 시사점은 다음과 같다. 첫째, 추론 길이 자체가 제한 요인이며, 단순히 모델 규모를 키우는 것만으로는 장기 일관성을 보장할 수 없다. 둘째, 구조적 거버넌스(segmentation, DAG, 외부 메모리 등)가 필수적이며, 이는 기존 “시스템 2” 프롬프트 기법이 암묵적으로 수행하고 있던 역할을 명시화한다. 셋째, 현재의 짧은‑호라이즌 평가는 이러한 불안정성을 감지하지 못해 과대평가된 성능을 보고할 위험이 있다. 따라서 향후 연구는 (i) 안정성을 측정하는 새로운 메트릭, (ii) 자동화된 구간화·리셋 메커니즘, (iii) 노이즈 억제형 전이 커널 설계 등을 탐구해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기