비신뢰 추론이 자동회귀 학습에서 어떻게 나타나는가: 합성 실험을 통한 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 작은 트랜스포머를 이용해 모듈러 산술 표현을 단계별로 푸는 합성 과제(AER)를 학습시킴으로써, 훈련 데이터의 잡음 수준이 일정 임계값을 넘을 때 모델이 논리적으로 일관된 체인‑오브‑씽(Chain‑of‑Thought) 추론을 포기하고 ‘스킵‑스텝’ 방식으로 전이하는 과정을 분석한다. 잡음이 낮을 때는 단순성 편향(simple‑bias) 덕분에 정확하고 인과적인 추론이 가능하지만, 잡음이 증가하면 중간 단계에서 예측 엔트로피가 일시적으로 상승하고, 모델이 내부 불확실성을 인코딩하며 암묵적인 자기 검증(self‑verification) 행동을 보인다.

상세 분석

본 연구는 LLM의 체인‑오브‑씽(CoT) 추론이 실제 연산 규칙을 따르는지, 아니면 단순히 정답을 맞추기 위한 ‘스킵‑스텝’ 전략에 불과한지를 정량화하고 메커니즘을 규명하고자 한다. 이를 위해 저자들은 (1) 모듈러 산술 표현을 연쇄적으로 제시하는 AER(Arithmetic Expression Reasoning) 과제를 설계하고, (2) 입력‑출력 토큰 시퀀스를 자동회귀 방식으로 학습시킨다. 데이터 생성 단계에서 프롬프트(첫 번째 연산식)와 중간 추론 단계에 각각 ε₁, ε₂ 확률로 무작위 잡음을 주입해 현실의 텍스트 코퍼스에서 발생할 수 있는 오류와 모호성을 모사한다.

실험에서는 3‑layer, 2‑head, 128‑dimensional 작은 트랜스포머를 N=97인 소수 모듈러 체계 하에 2 백만 샘플로 학습시켰으며, 모델 크기·학습 샘플 수·모듈러스 크기 등을 변형해도 결과는 일관되었다. 저자는 두 가지 신뢰성 정의를 제시한다. 첫 번째는 일관성 기반(consistency)으로, 생성된 추론 체인이 정답 체인과 완전히 일치하는지를 평가한다. 두 번째는 개입 기반(intervention)으로, 중간 추론 토큰을 무작위로 교체했을 때 최종 답변이 얼마나 변하는지를 측정한다. 전자는 인과 관계를 보장하지 못하지만 구현이 간단하고, 후자는 인과적 의존성을 직접 검증한다는 장점이 있다.

핵심 메트릭으로는 (i) RIR₁, RIR₂(일관성 비율), (ii) IDS(개입에 대한 분포 민감도)와 INR(개입 후 정답이 바뀌지 않는 비율), (iii) PE(예측 엔트로피) 등을 사용한다. 실험 결과는 다음과 같이 요약된다.

잡음 임계값: ε₂가 약 0.15 ~ 0.20을 넘으면 일관성 기반 지표가 급격히 악화된다. 이는 단순성 편향이 낮은 잡음에서는 모델이 가장 간단한 ‘step‑by‑step’ 함수를 학습하지만, 잡음이 커지면 더 복잡한 함수(예: 직접 f(e₁) → 답)를 선택하게 됨을 의미한다.
추론 모드 전이: 훈련 진행 과정에서 네 단계(P₀‑포맷 따름, P₁‑단계적 추론, P₂‑혼합, P₃‑스킵‑스텝)로 구분되는 동적 전이가 관찰된다. 특히 P₂ 단계에서 PE가 일시적으로 상승하는데, 이는 모델이 서로 모순되는 정보를 동시에 보유하고 ‘불확실성 해소’를 시도한다는 증거다.
암묵적 자기 검증: P₂ 단계에서 IDS가 높아지고 INR이 낮아지는 현상이 나타난다. 즉, 모델이 중간 추론 토큰에 의존하는 정도가 증가하면서, 잘못된 중간 토큰이 주어졌을 때도 최종 답을 재조정하려는 경향이 보인다. 이는 별도 메타‑프롬프트 없이도 자동회귀 학습 자체가 ‘자기‑검증’ 메커니즘을 내재화할 수 있음을 시사한다.
단순성 편향과 일반화: 저자는 ‘단순성 편향(simple bias)’을 이론적 설명으로 제시한다. 낮은 잡음에서는 가장 짧은 프로그램(‘step‑by‑step’)이 최소 손실을 제공하므로 모델이 이를 선택한다. 잡음이 증가하면 손실 표면이 평탄해져 더 복잡한 프로그램(‘skip‑step’)도 동일한 손실을 달성하게 되고, 결국 모델이 더 효율적인(짧은) 표현을 선호하게 된다.
실제 LLM에의 함의: 비록 실험은 합성 데이터와 소형 모델에 국한되지만, 결과는 대형 LLM이 고도화된 CoT를 학습할 때도 동일한 ‘노이즈‑임계값’과 ‘단순성‑편향’ 메커니즘이 작동할 가능성을 제시한다. 따라서 LLM이 생성하는 추론이 실제 연산 규칙을 따르는지 검증하려면, 단순히 일관성만 확인하는 것이 아니라 개입 기반 실험을 병행해야 한다는 실용적 교훈을 제공한다.

비신뢰 추론이 자동회귀 학습에서 어떻게 나타나는가: 합성 실험을 통한 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기