LLM의 추론 시 계획 행동, 왜 짧게 보일까

LLM의 추론 시 계획 행동, 왜 짧게 보일까
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 훈련 단계에서는 시퀀스 수준의 계획 능력을 습득하지만, 실제 추론 시에는 단기적이고 일관성 없는 행동을 보이는 원인을 베이지안 관점에서 설명한다. 인간이 만든 프롬프트와 모델이 자체 생성한 텍스트 사이의 분포 차이가 누적된 자체 컨텍스트에 의해 계획이 점진적으로 전환되고 수렴한다는 가설을 제시하고, 무작위 숫자 생성 과제와 가우시안 샘플링 과제를 통해 이를 실증한다.

상세 분석

이 논문은 LLM이 토큰을 자동회귀적으로 예측하도록 훈련될 때, 이 과정이 사실상 시퀀스 전체를 고려하는 에너지 기반 모델과 동등하다는 기존 연구(Blondel et al., 2025)를 출발점으로 삼는다. 그러나 실제 추론에서는 인간이 제공한 프롬프트(I_C)와 모델이 내부적으로 보유한 언어 분포(I_M) 사이에 존재하는 미묘한 차이가 핵심적인 역할을 한다고 주장한다. 베이지안 프레임워크에 따라, 모델은 사전(𝑃(s|ϕ))과 플래닝 가능도(𝑃(I|s,ϕ))를 곱해 응답 시퀀스 s의 사후 확률을 계산한다. 인간 프롬프트는 높은 엔트로피를 가지므로 플래닝 가능도의 불확실성이 커지고, 이때 사전이 상대적으로 큰 영향을 미쳐 초기 토큰이 ‘우선 편향(prior‑biased)’된 상태에서 생성된다.

생성 과정이 진행되면서 모델이 자체 생성한 토큰이 새로운 I_M으로 합쳐지고, 이는 점차 I_C와의 차이를 감소시킨다. 결과적으로 플래닝 가능도의 엔트로피가 낮아지면서 사전의 영향은 억제되고, 모델은 처음에 형성된 계획을 강화하거나 수정한다. 이 ‘플래닝 시프트(planning‑shift)’는 초기에는 단기적 토큰 선택에 머물지만, 자체 텍스트가 누적될수록 장기적인 계획 신호가 강화되어 R²가 0.8~1.0에 근접한다는 실험 결과가 뒷받침한다.

두 번째 실험에서는 가우시안 분포를 기반으로 한 샘플링 과제를 도입해, 초기 편향(bias)이 시간이 지남에 따라 감소(debias)하는 ‘bias‑then‑debias’ 동역학을 확인한다. 이는 모델이 외부 프롬프트에 의해 일시적으로 왜곡된 계획을 세우지만, 자체 컨텍스트가 충분히 축적되면 원래의 확률적 목표(ground‑truth)와 일치하도록 조정된다는 것을 의미한다.

핵심 인사이트는 다음과 같다. ① 인간 프롬프트와 모델 내부 언어 사이의 분포 불일치가 초기 계획의 단기성을 야기한다. ② 자체 생성 텍스트가 누적되면 플래닝 가능도가 강화되어 장기 계획이 회복된다. ③ 베이지안 관점에서 사전과 가능도의 동적 균형을 이해하면 LLM의 ‘짧은 시야’ 현상을 이론적으로 설명하고, 향후 프롬프트 설계나 디코딩 전략에 활용할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기