연쇄 사고 설명의 신뢰성 붕괴 메커니즘

연쇄 사고 설명의 신뢰성 붕괴 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 체인‑오브‑쓰리(Chain‑of‑Thought, CoT) 설명이 모델의 실제 추론 과정과 일치하는지를 평가하기 위해 정규화 로그잇 차이 감소(NLDD) 지표를 제안한다. NLDD는 각 추론 단계가 모델의 최종 답변에 미치는 영향을 로그잇 마진 변화로 측정하고, 이를 모델별 출력 변동성으로 정규화해 건전한 교차‑모델 비교를 가능하게 한다. 실험 결과, 세 종류의 모델(Llama‑3.1, DeepSeek‑Coder, Gemma‑2)와 세 가지 과제(Dyck‑n, PrOntoQA, GSM8K)에서 70‑85% 체인 길이까지는 높은 신뢰성을 보이다가 이후 단계에서는 NLDD가 급격히 감소하는 ‘Reasoning Horizon(k*)’이 존재함을 발견하였다.

상세 분석

논문은 CoT 설명이 실제 추론 메커니즘을 반영하는지 여부를 정량화하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, ‘Normalized Logit Difference Decay(NLDD)’는 특정 추론 단계가 손상되었을 때 정답 토큰에 대한 로그잇 마진이 얼마나 감소하는지를 측정한다. 여기서 로그잇 마진은 정답 토큰 로그잇과 가장 높은 비정답 토큰 로그잇의 차이이며, 전체 어휘에 대한 표준편차 σ(z)로 나누어 정규화한다(S = 1/M∑σ(zₘ)). 이 정규화는 모델마다 로그잇 스케일이 다르더라도 비교 가능하도록 만든다. NLDD는 (LD_clean − LD_corrupt)/|LD_clean| × 100 으로 정의되며, 양수이면 해당 단계가 모델의 신뢰도에 기여함을, 0에 가깝다면 기여도가 약함을, 음수이면 오히려 손상이 신뢰도를 높임을 의미한다.

둘째, NLDD와 함께 Representational Similarity Analysis(RSA)와 Trajectory Alignment Score(TAS)를 도입해 내부 표현의 변화를 다각도로 검증한다. RSA는 깨끗한 체인과 손상된 체인 사이의 은닉 상태 간 상관관계 기반 유사도를 측정해, 손상이 내부 표현 구조에 미치는 영향을 파악한다. 높은 RSA 값은 내부 표현이 손상에도 불구하고 일관성을 유지함을, 낮은 값은 구조적 붕괴를 의미한다. TAS는 중간 층에서 토큰‑레벨 은닉 상태 궤적의 직선성 비율을 계산해, 추론 과정이 효율적인 직선 이동인지 혹은 복잡하게 휘어지는지를 정량화한다.

실험 설계는 세 가지 난이도와 의미적 모호성을 가진 벤치마크(Dyck‑n, PrOntoQA, GSM8K)를 사용한다. 각 샘플에 대해 최대 5개의 반사실(counterfactual) 변형을 생성하고, 변형 단계별로 NLDD, RSA, TAS를 측정한다. ‘Reasoning Horizon(k*)’은 NLDD가 최대값을 보이는 단계로 정의되며, 이는 전체 체인 길이의 70‑85%에 해당한다. k* 이후 단계에서는 NLDD가 급격히 감소하고, RSA와 TAS는 여전히 높은 값을 유지한다는 점에서, 모델이 표면적인 토큰을 생성하지만 실제 계산에는 관여하지 않는 ‘포스트‑핵’ 현상이 나타난다.

또한 모델별 차이를 살펴보면, DeepSeek‑Coder는 높은 NLDD와 양의 값이 지속되어 진정한 추론 의존성을 보이는 반면, Gemma‑2는 NLDD가 음수 영역으로 이동해 추론 단계가 오히려 정답 신뢰도를 감소시키는 ‘Anti‑Faithful’ 패턴을 보인다. 이는 로그잇 스케일링(soft‑capping) 메커니즘이 NLDD 정규화에 어느 정도 영향을 주지만, 전체적인 경향은 유지됨을 의미한다.

결과적으로 논문은 CoT 설명이 반드시 모델의 내부 연산과 일치하지 않을 수 있음을 실증하고, NLDD를 통해 단계별 기여도를 정량화함으로써 언제까지 CoT가 실제 추론에 영향을 미치는지를 명확히 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기