인코더가 우세한 인과 추론: 디코더 전용 모델의 한계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인과 추론에서 다중 홉 논리 연산과 엄격한 교집합 제어가 요구되는 상황에서, 인코더 기반 및 인코더‑디코더 모델이 디코더 전용 모델보다 더 견고하게 일반화한다는 것을 실험적으로 입증한다. 제로·few‑shot 인‑컨텍스트 학습만으로는 충분하지 않으며, 비용 효율적인 짧은 범위 추론을 위해서는 목표에 맞는 파인튜닝이 필요함을 강조한다.

상세 분석

논문은 인과 추론을 “다중 홉 구성”과 “엄격한 교집합 제어”라는 두 가지 핵심 요구사항으로 정의하고, 이러한 요구사항이 모델의 내부 정보 흐름에 어떤 영향을 미치는지를 구조적으로 분석한다. 인코더‑전용 모델은 입력 전체를 한 번에 잠재 공간으로 투사하여 전 토큰 간의 전역적인 상호작용을 즉시 구현한다. 이는 수식 (1)에서 제시된 “(리터럴) ⇒ (절‑레벨 논리합) ⇒ (전역 교집합)” 형태의 논리 프로그램을 단일 투사‑합성 단계로 처리할 수 있음을 의미한다. 반면 디코더‑전용 모델은 토큰을 순차적으로 처리하므로, 입력 순서가 논리적 전제 순서와 일치하지 않을 경우 백트래킹이나 추가 호출이 필요하게 된다. 이러한 구조적 차이는 실험 결과에서도 드러난다. 저자들은 SimpleLogic 벤치마크를 기반으로, 논리 깊이(즉, 필요한 추론 단계 수)를 단계별로 증가시키면서 모델들의 정확도를 측정하였다. 인코더와 인코더‑디코더 모델은 깊이가 증가할수록 정확도 저하가 완만했으며, 특히 문자 수준의 무작위 변형(lexical ablation)에서도 논리 구조에 집중하는 경향을 보였다. 반면 디코더‑전용 모델은 얕은 깊이에서는 경쟁력 있는 성능을 보였지만, 깊이가 3~4단계 이상으로 늘어나면 급격히 성능이 떨어졌다. 또한, GPT‑5와 같은 초대형 디코더 모델은 거의 완벽에 가까운 성능을 보였지만, 높은 연산 비용과 지연 시간이 동반됨을 지적한다. 따라서 논문은 “ICL만으로는 인과 추론을 신뢰하기 어렵다”는 결론에 도달하고, 비용‑효율적인 환경에서는 인코더 기반 모델을 파인튜닝하는 것이 최적의 선택임을 제안한다.

인코더가 우세한 인과 추론: 디코더 전용 모델의 한계

초록

상세 분석

댓글 및 학술 토론

의견 남기기