일반화 가능한 추론을 위한 그룹 인과 반사실 정책 최적화
초록
본 논문은 LLM의 추론 과정에 인과·반사실 관점을 도입해, 최종 정답에만 의존하는 기존 보상 체계의 한계를 극복한다. 다중 후보 추론을 “반사실 실험”으로 해석하고, **견고성(robustness)**과 **효율성(effectiveness)**을 동시에 측정하는 에피소드 단위 인과 반사실 보상을 설계한다. 이 보상으로부터 토큰‑레벨 어드밴티지를 추출해 정책을 업데이트함으로써, 과정‑유효성(process‑valid)과 반사실적 견고성을 갖는 일반화 가능한 추론 패턴을 학습한다. 다양한 벤치마크 실험에서 제안 방법이 기존 GRPO 기반 모델을 크게 앞선다.
상세 분석
본 연구는 LLM 추론의 일반화 문제를 인과 그래프와 반사실 실험이라는 두 축으로 재구성한다. 기존 GRPO·PRM 기반 보상은 정답 여부(0/1) 혹은 정답에 기반한 스코어만을 제공해, “운 좋은 추측(lucky‑guess)”과 “과정이 올바른데 정답이 틀린 경우”를 구분하지 못한다. 저자들은 질문 하나에 대해 K개의 후보 추론 경로를 동시에 샘플링하고, 이를 동일한 외생 변수 하에서 다른 정책·행동을 적용한 반사실 실험 집합으로 본다(정리 2.1).
보상 설계는 두 가지 원칙을 따른다.
- 견고성(Robustness) – 특정 추론 단계에서 생성된 답변 분포가 작은 의미론·표현 교란(예: 토큰 임베딩에 가우시안 노이즈, 문장 재구성)에도 크게 변하지 않을 경우, 해당 단계가 인과적으로 불변(invariant)한 논리 구조를 이용했음을 의미한다. 이를 Monte‑Carlo 방식으로 샘플링된 교란 집합에 대해 KL‑발산 혹은 변동성 지표를 계산해 정량화한다.
- 효율성(Effectiveness) – 지나치게 보수적인 단계는 정보량이 적어 학습이 정체될 위험이 있다. 저자는 “표현의 충분한 변이성”을 측정하기 위해 엔트로피 감소율을 도입하고, 일정 임계값 이하일 경우 페널티를 부과한다.
이 두 점수를 에피소드 보상 R_epi = α·Robustness − β·(1‑Effectiveness) 형태로 결합하고, 기존 정답 기반 보상 R_out 과 가중합한다. 이후 토큰‑레벨 어드밴티지 A_t = (R_epi + R_out − b)·(∂logπ/∂θ) 를 이용해 PPO‑style 정책 업데이트를 수행한다.
기술적 구현은 세 단계로 나뉜다. (i) 에피소드 분할 – 자동화된 의미적 경계 탐지(예: “Step 1:”, “Therefore”)를 통해 연산적 의미가 완전한 추론 단계로 나눈다. (ii) 보상 계산 – 각 단계별로 로컬 교란을 생성하고, 교란 전·후 답변 분포 차이를 Monte‑Carlo 추정한다. (iii) 정책 최적화 – 토큰‑레벨 어드밴티지를 기존 GRPO 손실에 통합하고, KL‑제약을 유지하면서 학습한다.
실험에서는 GSM8K, Math, HumanEval 등 7개 데이터셋에 대해 Qwen2.5‑7B, LLaMA‑2‑13B 등 여러 모델에 적용했다. 결과는 (1) 전체 정확도 향상, (2) “near‑miss”와 “lucky‑guess” 그룹 간 보상 차이 확대, (3) 질문 변형(재표현, 방해 요소 삽입) 시 성능 저하가 현저히 적음 등으로 나타났다. 특히, 기존 GRPO 대비 평균 3.2%p 상승, “process‑valid” 트래젝터리 비율이 27%p 증가했다.
한계와 향후 과제는 (a) 교란 설계가 도메인에 따라 민감할 수 있어 일반적인 교란 집합 정의가 필요, (b) 현재는 토큰‑레벨 어드밴티지만, 단계‑레벨 메타‑보상과 결합하면 더 강력할 가능성이 있다. 또한, 대규모 모델(>30B)에서의 스케일링 효율성 검증이 남아 있다.
전반적으로, 인과·반사실 관점을 통해 “정답이 아닌 과정”을 정량화하고, 이를 정책 학습에 직접 반영함으로써 LLM이 진정한 논리 구조를 학습하도록 유도한 점이 혁신적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기