컷을 없애지 말라: LLM 기반 정리 증명에서의 지수적 구분
초록
본 논문은 LLM이 제시하는 전술을 확률적 정책으로 모델링한 유한 horizon 결정적 MDP 프레임워크를 제시한다. 상태·행동을 일반적인 콤팩트 메트릭 공간으로 두고 Lipschitz 정책을 가정한다. 레퍼런스 정책 q가 생성하는 문제 분포를 도입하고, 특히 증명 DAG(절단/보조정리 구조)를 이용한 잠재 변수 모델을 설계한다. 상위‑k 탐색과 Tsybakov‑type 마진 조건 하에서 성공 확률에 대한 하한을 도출하고, 순차 Rademacher/covering 복잡도로 학습 오차를 제어한다. 핵심 결과는 컷을 유지한 계층적 학습자가 컷을 제거한 평면 학습자보다 증명 깊이 D에 대해 지수적으로 적은 데이터로 동일 성공률을 달성한다는 것이다. 이는 최신 에이전트형 정리 증명기에서 서브골 분해가 왜 필수적인지를 이론적으로 정당화한다.
상세 분석
논문은 먼저 인터랙티브 정리 증명 시스템(예: Lean)을 유한‑horizon 결정적 MDP로 공식화한다. 상태 X는 현재 목표들의 집합을, 행동 A는 전술과 그 파라미터를 나타내며, 전이 함수 F는 Lean 커널의 결정적 규칙을 그대로 반영한다. 이때 상태·행동 공간을 콤팩트 메트릭 공간으로 가정하고, 정책 클래스 𝓗를 Lipschitz 연속으로 제한함으로써 실제 LLM이 학습한 임베딩과 유사한 구조적 제약을 부여한다.
다음으로 레퍼런스 정책 q가 생성하는 성공적인 증명 트레이스를 기반으로 두 종류의 데이터 분포를 정의한다. 첫 번째는 컷‑프리(cut‑free) 분포 Q_tree로, q가 직접 생성한 트리형 증명만을 포함한다. 두 번째는 잠재 변수 Z가 DAG 형태의 공유 구조(컷/보조정리)를 나타내는 cut‑structured 분포이다. 관측 모델 p(y|x,z) 는 DAG Z를 전개해 컷‑프리 트레이스로 변환한다. 이 모델은 깊이 D, 효과적 분기 계수 b_eff, 수축률 α와 같은 직관적인 파라미터로 증명 복잡도를 파라미터화한다.
성공 확률 V_π(T,x₀) 에 대해 상한을 도출할 때, 저자는 top‑k 탐색 프로토콜과 Tsybakov‑type 마진 가정을 결합한다. 마진 가정은 최적 정책과 학습된 정책 사이의 행동 선택 확률 차이가 일정 마진 Δ 이하일 확률이 지수적으로 감소함을 의미한다. 이를 통해 탐색 난이도와 한 단계 모방 오류를 분리한 형태의 하한을 얻는다.
학습 오차는 순차 Rademacher 복잡도와 커버링 수를 이용해 제어한다. 특히 잠재 DAG 모델에 대해 posterior‑weighted ERM을 수행하면, ELBO 차이(잠재 구조 추정 오차)와 순차 복잡도 항이 합산된 일반화 경계가 도출된다.
핵심 정리는 “컷 제거에 따른 폭발적 크기 증가”를 정량화한 것이다. 컷‑프리 트리의 노드 수는 Ω(Λ^D)이며, 여기서 Λ 는 평균적인 전술 선택 폭을 나타낸다. 반면, 컷‑aware DAG는 O(λ^D) (λ ≪ Λ) 만큼만 성장한다. 성공 확률을 일정 수준으로 유지하려면 정책의 한 단계 정확도가 약 1 / (Λ^D) 정도 필요하지만, 계층적 학습자는 1 / (λ^D) 정도만 요구한다. 따라서 샘플 복잡도는 지수적으로 차이 나며, 이는 실제 LLM‑기반 증명기에서 서브골(lemma) 생성·재사용이 왜 데이터 효율성을 크게 향상시키는지를 설명한다.
마지막으로 논문은 기존 HRL·옵션 연구와 차별화한다. 기존 연구는 확률적 전이와 보상에 초점을 맞추는 반면, 여기서는 결정적 전이와 목표 도달 확률을 다루며, 구조적 공유(DAG)와 컷‑elimination이라는 논리적 메커니즘을 통해 지수적 구분을 증명한다.
댓글 및 학술 토론
Loading comments...
의견 남기기