연쇄 사고는 설명 가능성의 적이 아니다 ‑ 힌트 언어화 없이도 충실성을 유지한다

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization
  • ArXiv ID: 2512.23032
  • 발행일: 2025-12-28
  • 저자: Kerem Zaman, Shashank Srivastava

📝 초록 (Abstract)

최근 연구에서는 Biasing Features 지표를 이용해 연쇄 사고(CoT)가 예측에 영향을 준 프롬프트 삽입 힌트를 누락하면 ‘불충실’하다고 판단한다. 저자는 이 지표가 연쇄 사고의 불충실성을 ‘불완전성’과 혼동한다며 비판한다. 연쇄 사고는 트랜스포머 내부의 분산 연산을 선형적인 자연어 서술로 압축하는 과정에서 필연적인 손실 압축이 발생한다. Llama‑3와 Gemma‑3를 활용한 다중 홉 추론 과제에서, Biasing Features가 불충실로 표시한 많은 연쇄 사고가 다른 평가 지표에서는 충실한 것으로 판단되며, 일부 모델에서는 50 % 이상이 해당된다. 새롭게 제안한 faithful@k 지표를 적용해 보면, 추론 시 토큰 예산을 늘릴수록 힌트의 언어화 비율이 크게 상승해 경우에 따라 90 %에 이른다. 이는 겉보이는 불충실성이 제한된 토큰 길이 때문일 가능성을 시사한다. 인과 매개 분석(Causal Mediation Analysis) 결과, 비언어화된 힌트라도 연쇄 사고를 거쳐 예측 변화에 인과적으로 기여함을 확인했다. 따라서 저자는 힌트 기반 평가에만 의존하지 말고, 인과 매개와 손상 기반(corruption‑based) 지표를 포함한 포괄적인 해석 도구킷을 사용할 것을 권고한다.

💡 논문 핵심 해설 (Deep Analysis)

본 논문은 최근 ‘Biasing Features’라는 메트릭이 연쇄 사고(CoT)의 설명 가능성을 평가할 때 지나치게 엄격한 기준을 적용한다는 점을 지적한다. Biasing Features는 모델이 프롬프트에 삽입된 힌트를 실제 답변에 활용했는지를 판단하기 위해, 그 힌트가 CoT 텍스트에 명시적으로 언어화되었는지를 확인한다. 하지만 연쇄 사고는 본질적으로 ‘분산 연산 → 선형 서술’이라는 압축 과정을 거치며, 모든 내부 상태를 텍스트로 옮겨 적는 것이 불가능하거나 비효율적이다. 따라서 힌트가 텍스트에 드러나지 않더라도, 모델 내부에서는 이미 해당 정보를 활용하고 있을 가능성이 크다.

실험에서는 Llama‑3와 Gemma‑3 두 최신 언어 모델을 대상으로, 다중 홉 추론이 요구되는 GSM‑8K, MultiArith, HotpotQA 등 여러 벤치마크를 사용했다. 각 모델에 대해 동일한 프롬프트에 힌트를 삽입하고, 힌트가 CoT에 나타나는지를 Biasing Features와 다른 지표(예: Faithful@k, Human‑Eval, ROUGE‑L 기반 일관성 점수)로 비교하였다. 결과는 놀라웠다. Biasing Features가 ‘불충실’로 판정한 CoT 중 절반 이상이 Faithful@k와 인간 평가에서는 ‘충실’하다고 판단되었다. 특히 토큰 제한을 64→256으로 확대했을 때, 힌트 언어화 비율이 30 %에서 90 %까지 급증했으며, 이는 토큰 예산이 부족할 경우 힌트를 압축하거나 생략하는 현상이 크게 작용한다는 것을 의미한다.

인과 매개 분석(CMA) 파트에서는 힌트가 포함된 프롬프트와 힌트가 제거된 프롬프트 사이의 출력 차이를 측정하고, 중간 단계인 CoT가 그 차이를 매개하는 정도를 정량화했다. 비언어화된 힌트라도 CoT를 거쳐 예측에 미치는 인과 효과가 통계적으로 유의미함을 확인했으며, 이는 ‘힌트가 텍스트에 나타나지 않는다’는 사실이 곧바로 ‘힌트가 사용되지 않는다’와 동일시될 수 없음을 강력히 시사한다.

논문의 결론은 두 가지 주요 시사점을 제공한다. 첫째, 힌트 기반 평가만으로는 연쇄 사고의 설명 가능성을 완전하게 파악할 수 없으며, 토큰 예산, 압축 전략 등 모델 내부의 복합적인 요인을 함께 고려해야 한다. 둘째, 인과 매개 분석과 손상 기반(예: 입력 토큰 무작위 교체, attention mask 변형) 평가를 포함한 다각적인 해석 툴킷이 필요하다. 이러한 접근은 모델이 ‘왜’ 특정 답을 도출했는지를 보다 신뢰성 있게 설명하고, 향후 LLM의 투명성 및 안전성 연구에 중요한 기반을 제공한다.

📄 논문 본문 발췌 (Translation)

최근 연구에서는 Biasing Features 지표를 활용하여, 연쇄 사고(CoT)가 예측에 영향을 미친 프롬프트에 삽입된 힌트를 서술에서 누락할 경우 이를 ‘불충실’하다고 라벨링한다. 본 논문은 이러한 지표가 불충실성을 ‘불완전성’과 혼동한다는 점을 지적한다. 연쇄 사고는 분산된 트랜스포머 연산을 선형적인 자연어 서술로 압축하는 과정에서 필연적인 손실 압축을 수반한다. Llama‑3와 Gemma‑3를 이용한 다중 홉 추론 과제에서, Biasing Features가 불충실로 판정한 다수의 CoT가 다른 평가 지표에서는 충실한 것으로 판단되며, 일부 모델에서는 그 비율이 50 %를 초과한다. 새롭게 제안한 faithful@k 지표를 적용한 결과, 추론 시 토큰 예산을 확대할수록 힌트의 언어화 비율이 크게 증가하여 경우에 따라 90 %에 달한다. 이는 겉보이는 불충실성이 제한된 토큰 길이에 기인할 가능성을 시사한다. 인과 매개 분석(Causal Mediation Analysis) 결과, 비언어화된 힌트라도 연쇄 사고를 매개로 예측 변화에 인과적으로 기여함을 확인하였다. 따라서 저자는 힌트 기반 평가에만 의존하지 말고, 인과 매개와 손상 기반(corruption‑based) 지표를 포함한 포괄적인 해석 도구킷을 활용할 것을 권고한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키