연쇄 사고 신뢰성 측정을 위한 단계별 언러닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 언어 모델이 생성한 체인 오브 락(Chain of Thought, CoT)의 파라미터적 충실성을 평가하기 위해, CoT의 각 추론 단계 정보를 모델 파라미터에서 삭제(언러닝)하고, 삭제가 모델의 최종 예측에 미치는 영향을 측정하는 프레임워크(PFF)를 제안한다. 구체적인 구현인 FUR(Faithfulness by Unlearning Reasoning steps)은 NPO+KL 기반 언러닝 기법을 사용해 단계별 토큰을 제거하고, 변화된 예측과 원본 예측의 차이를 통해 ‘FF‑HARD’와 ‘FF‑SOFT’ 두 지표를 정의한다. 실험은 4가지 대형 모델과 5개의 다중 선택 멀티홉 QA 데이터셋에서 수행됐으며, 핵심 단계가 언러닝될 때 모델 예측이 일관되게 변함을 보여 CoT가 파라미터와 실제로 일치한다는 증거를 제공한다. 또한 인간 평가와 LLM‑as‑judge 실험을 통해 충실한 단계가 반드시 인간에게 설득력 있게 보이지는 않음을 확인한다.

상세 분석

본 연구는 기존 CoT 평가가 주로 컨텍스트 수준(자기 일관성)에서 이루어졌던 한계를 극복하고, 모델 내부 파라미터와 언어적 추론 사이의 인과관계를 직접 검증하려는 시도이다. 이를 위해 저자들은 ‘Parametric Faithfulness Framework(PFF)’라는 두 단계 프로세스를 설계하였다. 첫 번째 단계는 ‘파라미터 개입’으로, 생성된 CoT를 문장 단위로 분할하고 각 단계에 포함된 내용 단어들을 ‘forget set’으로 정의한다. 이후 NPO(Negative Preference Optimization)와 KL‑regularization을 결합한 NPO+KL 방식을 적용해 해당 내용 단어들의 예측 확률을 의도적으로 감소시킨다. 이때 retain set은 다른 인스턴스의 무작위 CoT 단계에서 추출한 내용 단어들로 구성해 모델의 전반적인 언어 능력과 유창성을 보존한다.

두 번째 단계에서는 개입 후 모델(M*)과 원본 모델(M)의 직접 답변 차이(Δprediction)와 CoT 차이(Δreasoning)를 측정한다. ‘FF‑HARD’는 전체 CoT가 파라미터와 일치하는지를, ‘FF‑SOFT’는 개별 단계가 얼마나 중요한지를 정량화한다. 구체적으로, 효능(efficacy)은 해당 단계의 길이 정규화 확률 감소 비율로, 특이성(specificity)은 비관련 데이터에서 성능 저하 비율로 정의한다.

실험에서는 Llama‑2‑13B, GPT‑3.5‑Turbo, Claude‑2 등 네 가지 모델에 대해, ARC‑E, OpenBookQA, HotpotQA 등 다섯 개 멀티홉 MCQA 데이터셋을 사용했다. 결과는 핵심 단계가 언러닝될 때 평균 Δprediction이 0.4~0.6에 달해 정답이 바뀌는 경우가 다수였으며, 이는 해당 단계가 모델 내부 추론에 실제로 기여했음을 시사한다. 반면, 부수적인 단계는 언러닝 후에도 예측에 큰 영향을 미치지 않아 FF‑SOFT 점수가 낮게 나타났다.

추가 분석에서는 언러닝 후 모델이 새롭게 생성한 CoT가 원본과 다른 논리 흐름을 보이며, 종종 다른 정답을 지지한다는 점을 발견했다. 이는 파라미터 수준에서 지식이 제거되면 모델이 동일한 질문에 대해 새로운 추론 경로를 재구성한다는 의미다. 인간 평가에서는 FUR이 식별한 ‘충실한’ 단계가 반드시 인간에게 설득력 있게 보이지 않았으며, LLM‑as‑judge 역시 동일한 경향을 보였다. 이는 현재 CoT 생성이 인간 친화적 설득력(plausibility)과 파라미터 충실성(faithfulness) 사이에 트레이드오프가 존재함을 암시한다.

이 논문의 주요 기여는 (1) 파라미터 기반 충실성 측정을 위한 일반 프레임워크(PFF) 제시, (2) NPO+KL을 활용한 단계별 언러닝 구현(FUR), (3) FF‑HARD/FF‑SOFT라는 정량적 지표 도입, (4) 다양한 모델·데이터셋에 대한 실증적 검증, (5) 충실성 vs. 설득력 간 차이를 인간·LLM 평가를 통해 조명한 점이다. 향후 연구는 보다 정교한 언러닝 기법과, 인간이 이해하기 쉬운 동시에 파라미터와 일치하는 CoT를 생성하도록 모델을 정렬(alignment)하는 방법을 탐색할 여지를 남긴다.

연쇄 사고 신뢰성 측정을 위한 단계별 언러닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기