두 번의 반사실 일관성으로 인과 추론 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 라벨링된 반사실 데이터 없이도 대형 언어 모델의 인과 추론 능력을 평가하고 향상시킬 수 있는 “이중 반사실 일관성”(Double Counterfactual Consistency, DCC) 방법을 제안한다. DCC는 원 질문 → 반사실 질문 → 다시 원 상태로 복원한 이중 반사실 질문의 세 단계 답변이 일치하는지를 확인함으로써 모델이 ‘개입’과 ‘반사실 예측’ 두 핵심 인과 reasoning 요소를 수행했는지를 측정한다. 실험에서는 GSM8K, CruxEval, MATH 등 다양한 추론 벤치마크에 적용해 DCC가 기존 정확도와는 별개의 지표임을 보였으며, 추론 시 재샘플링 기준 및 강화학습 보상으로 활용해 성능을 실질적으로 향상시켰다.

상세 분석

이 논문은 대형 언어 모델(LLM)이 실제 세계의 인과 구조를 내재하고 있는지 판단하기 위해 “이중 반사실 일관성”(Double Counterfactual Consistency, DCC)이라는 새로운 평가·제어 메커니즘을 도입한다. 핵심 아이디어는 인과 개입(intervention)과 반사실 예측(counterfactual prediction)이라는 두 단계가 순차적으로 수행될 때, 첫 번째 개입을 다시 되돌리는 두 번째 개입을 적용했을 때 원 질문에 대한 답과 동일한 답이 도출되어야 한다는 점이다. 이를 수식적으로는 DCC(T,Z)=1{Ŷ(0,Z)=Ŷ′(0,Z)} 로 정의되며, 여기서 Ŷ는 원 질문에 대한 모델의 예측, Ŷ′는 ‘개입 → 반사실 → 복원’ 과정을 거친 후의 예측이다.

논문은 인과 추론을 통계적 인과 모델(Rubin’s potential outcomes)과 연결시켜, LLM이 훈련 시 관측된 사실(factual) 데이터만을 학습함으로써 반사실 영역을 일반화하지 못하는 구조적 한계를 지적한다. DCC는 이러한 한계를 라벨링된 반사실 데이터 없이도 탐지할 수 있는 경량화된 추론‑시간 절차를 제공한다. 구현 측면에서는 하나의 프롬프트 템플릿 안에 세 단계의 질문·답변·추론 과정을 포함시켜, 소수의 인-컨텍스트 학습 예시만으로 다양한 데이터셋과 개입 유형에 대해 확장 가능하도록 설계하였다.

DCC는 세 가지 활용 형태를 가진다. 첫째, 전체 테스트 셋에 대해 일관성을 만족하는 비율을 측정함으로써 모델의 인과 추론 능력을 정량화하는 메트릭으로 사용한다. 둘째, 추론 시 ‘재샘플링(rejection sampling)’ 기준으로 활용한다. 모델이 원 질문과 이중 반사실 질문에 대해 일치하지 않는 답을 내놓으면 해당 시도를 버리고 다시 샘플링하는 과정을 반복하는데, 실험에서는 평균 3.97번의 시도로 일관성을 달성해 비용 효율성을 입증했다. 셋째, 테스트‑시간 강화학습 보상으로 DCC를 적용한다. LoRA 어댑터를 GRPO 최적화와 결합해 DCC가 만족되는 경우에만 보상을 주어, 모델이 개입·복원 과정을 내부화하도록 유도한다.

실험에서는 GSM8K(수학 문제), CruxEval(프로그래밍 논리), MATH(고난이도 수학) 등 세 가지 추론 벤치마크에 대해 다양한 LLM(예: GPT‑4, LLaMA‑2, Claude)들을 평가하였다. 결과는 (1) DCC 점수가 높은 모델이 반드시 높은 정확도를 보이는 것은 아니며, 인과 일관성은 별개의 능력임을 확인했다. (2) DCC 기반 재샘플링을 적용하면 기존 베이스라인(단일 프롬프트, 체인‑오브‑생각 등) 대비 정확도가 평균 4~7% 향상되었다. (3) 강화학습 보상으로 DCC를 사용한 경우, 특히 반사실 질문에 대한 성능이 크게 개선되었으며, 과도한 보상 최적화가 발생하지 않도록 조기 종료가 중요함을 강조한다.

한계점으로는 DCC가 ‘답변 일치’를 기준으로 하기 때문에, 원 질문 자체가 틀린 경우에도 일관성을 가질 수 있다는 점이다. 따라서 DCC는 기본 정확도와 병행해 해석해야 하며, 보다 정교한 ‘내용 일관성’ 검증이 필요하다. 또한 현재 구현은 세 단계가 하나의 프롬프트에 결합돼 모델이 두 답변을 동시에 볼 수 있어, 모델이 단순히 일치하도록 답을 맞추는 ‘shortcut’을 학습할 위험이 있다. 이를 방지하기 위해 단계별 독립 호출 방식이나, 답변 간 정보 차단을 위한 추가 프롬프트 설계가 제안된다.

전반적으로 DCC는 라벨링 비용이 큰 반사실 데이터 없이도 LLM의 인과 추론 능력을 정량화하고, 추론‑시간에 실용적으로 활용할 수 있는 강력한 도구임을 입증한다. 향후 연구에서는 DCC를 다양한 도메인(의료, 정책, 과학)에 적용하고, 더 복잡한 인과 그래프(다중 변수 개입, 순환 구조)까지 확장하는 방향이 기대된다.

두 번의 반사실 일관성으로 인과 추론 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기