방향성 추론 궤적 변화(DRTC): 추론 모델의 핵심 문맥 구간 식별

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DRTC는 장기 추론 과정에서 모델이 결정 전환을 일으키는 “피벗” 시점을 불확실도와 분포 변화를 통해 탐지하고, 해당 피벗에서만 과거 텍스트 청크의 정보를 차단하는 수신측 마스킹을 적용한다. 각 청크가 로그확률 궤적을 실제 진행 방향으로 얼마나 끌어당기는지를 정량화해 부호가 있는 기여도를 산출하며, 로그잇(curvature) 변화를 보조적인 기하학적 진단으로 제공한다. 실험 결과, 영향력은 소수 청크에 집중되고, 학습된 피벗 청크는 무작위 청크보다 일관되게 큰 효과를 보인다.

상세 분석

본 논문은 장기 추론을 수행하는 대형 언어 모델(LM)의 내부 메커니즘을 “프로세스‑인과관계” 관점에서 해석하고자 한다. 기존의 토큰‑레벨 기여도 분석은 정답과의 상관관계만을 밝히는 경우가 많아, 실제 추론 흐름에서 언제, 어디서 전환이 일어나는지를 포착하지 못한다는 한계가 있다. 이를 극복하기 위해 저자들은 네 단계의 방법론을 제시한다. 첫째, 불확실도(엔트로피), 상위‑2 토큰 마진, 그리고 전후 토큰 윈도우 간의 Jensen‑Shannon divergence를 가중합한 피벗 점수를 통해 “전환 가능성”이 높은 시점을 선정한다. 여기서 사용된 가중치(γ_H,γ_M,γ_S)=(1.0,1.0,0.5)는 경험적으로 설정되었으며, 최소 토큰 간격을 두어 중복 피벗을 방지한다. 둘째, 선택된 피벗마다 특정 청크(c_i)를 차단하는 수신측 마스킹을 적용한다. 이는 해당 피벗 위치의 쿼리‑키 어텐션 점수를 -∞ 로 설정해 청크와의 직접적인 정보 흐름을 차단하지만, 이미 전파된 히든 상태는 유지한다. 따라서 “피벗‑국부적 반사실(counterfactual)”을 구현하면서도 전체 생성 텍스트는 그대로 유지된다. 셋째, 각 청크‑피벗 쌍에 대해 두 가지 정량적 지표를 계산한다. (a) 스크리닝 효과 a_{k,i}는 차단 전후 피벗 토큰의 로그확률 차이로, 해당 청크가 피벗 결정에 미치는 직접적인 영향력을 측정한다. 이를 시그모이드 함수와 피벗‑별 캘리브레이션 파라미터 β_k 로 정규화해 가중치 w_{k,i}를 만든다. (b) 방향성 궤적 변화 δ_{k,i}는 로그확률 공간에서 피벗 전후 벡터 차이 e_{k,i}를 전체 진행 방향 g와 내적해 구한다. 양수이면 청크가 실제 진행 방향을 강화한다는 의미이다. 마지막으로, 모든 피벗에 걸쳐 w_{k,i}·δ_{k,i}를 피벗 가중치 u_k와 곱해 합산해 청크별 DRTC 점수 DR_TC(i)를 도출한다. 이 점수는 부호가 있어 “긍정적” 혹은 “부정적” 기여를 명시한다. 네 번째 보조 진단으로, 로그잇(logit) 공간에서 연속 토큰 간의 회전각(κ)을 계산하고, 청크 차단 전후의 차이를 ∆κ_{k,i}로 정의한다. 이를 가중합해 CurvImpact(i)와 청크별 정규화된 서명 s_i를 만든 뒤, 코사인 유사도로 청크들을 군집화해 “곡률 역할(path)”을 도출한다. 이 역할은 의미적 일관성을 보이며, DRTC와 독립적으로 청크의 구조적 특성을 파악한다. 실험에서는 4가지 추론 모델(예: GPT‑4‑style, Llama‑2‑70B 등)과 500개의 수학 문제(MATH) 데이터셋을 사용했다. 영향력의 집중도는 Gini 계수가 0.50–0.58 수준으로, 상위 5% 청크가 전체 효과의 23–28%를 차지한다는 점을 보여준다. 학습된 피벗 청크는 무작위 청크 대비 평균 ∆log‑prob이 0.409 정도 크게 향상됐으며, 통계적으로 매우 유의미(p≈2.3e‑21)했다. 또한, 임베딩 보간 편집(embedding‑interpolation) 실험에서 상위 DRTC 청크를 삭제하면 교사 강제(gold‑answer) 로그확률이 무작위 청크보다 더 크게 감소한다는 결과가 보고되었다. 마지막으로, 기존의 그래디언트 기반(Integrated Gradients, SmoothMask 등) 및 활성화 패칭(Activation Patching) 방법과 비교했을 때, DRTC는 피벗‑국부적이며 온‑폴리시(on‑policy) 특성을 유지함으로써 더 일관된 인과적 해석을 제공한다는 결론을 내렸다. 전체적으로 DRTC는 “언제”와 “어디서”가 아니라 “어떤 과거 문맥이 현재 전환을 유도했는가”를 정량화함으로써, 장기 추론 모델의 메카니즘을 보다 직관적이고 검증 가능한 방식으로 드러낸다.

방향성 추론 궤적 변화(DRTC): 추론 모델의 핵심 문맥 구간 식별

초록

상세 분석

댓글 및 학술 토론

의견 남기기