오프‑더‑쉘프 모델로 IMO 문제 정복: 인지 웰 탈출과 비용 절감 전략
초록
본 논문은 공개된 대형 언어 모델만을 이용해 국제수학올림피아드(IMO) 수준의 증명 문제를 효율적으로 해결하는 파이프라인을 제안한다. “인지 웰”(잘못된 풀이가 채점자와 솔버 모두에 의해 올바른 것으로 착각되는 현상)과 “인지 플래토”(진전이 없지만 점수가 크게 변하지 않는 현상)를 진단하고, 후보 보조정리(Conjecture) 추출·양면 검증(긍정·부정)·문맥 분리(Context Detachment) 과정을 통해 이를 극복한다. 제한된 병렬도(K≈4)와 대화형 ‘다이얼렉틱’ 프롬프트를 활용해 비용을 크게 낮추면서도 PB‑Adv 벤치마크에서 67.1% 정확도(≈$31/문제)라는 최고 수준의 성능을 달성한다.
상세 분석
이 연구는 최근 공개된 대형 언어 모델이 단일 호출로 복잡한 수학 증명을 생성하기 어렵다는 점을 출발점으로 삼는다. 기존의 솔버‑채점자 파이프라인은 수백 번의 반복 호출과 수천 달러에 달하는 비용을 요구했으며, 특히 두 가지 실패 모드가 성능을 저해한다. 첫 번째는 ‘인지 플래토’로, 솔버가 부분적인 아이디어를 제시하지만 채점자는 그 아이디어가 실제로 문제 해결에 얼마나 기여했는지 판단하지 못해 점수가 정체된다. 두 번째는 ‘인지 웰’로, 솔버와 채점자가 동일한 모델 파라미터와 컨텍스트를 공유하면서, 논리적으로 일관성은 있지만 근본적인 오류가 있는 풀이를 정답으로 오인한다. 논문은 이러한 현상을 ‘그레이더 해킹’ 혹은 최적화 이론의 ‘안정적인 로컬 최소점’에 비유한다.
이를 해결하기 위해 제안된 파이프라인은 세 가지 핵심 설계 원칙을 따른다. ① 제한된 병렬도(Narrow Width): 기존 64개 이상의 병렬 브랜치를 4개 정도로 축소해 비용을 절감하고 모니터링을 용이하게 만든다. ② Conjecture Extraction: 현재 스톨된 증명에서 논리적 공백을 명시적인 보조정리 형태로 추출한다. 이때 보조정리와 그 부정(¬C) 모두를 별도 문제로 만든다. ③ Contextual Detachment: 추출된 보조정리와 부정을 원본 증명 컨텍스트와 완전히 분리된 새로운 환경에 투입해 독립적으로 증명하거나 반증한다. 만약 C가 증명되면 전역 메모리(M_lemma)에 양성 보조정리로 저장하고, ¬C가 증명되면 부정 정리로 저장해 솔버가 기존 오류에 빠지지 않도록 한다.
구현상의 핵심은 Dialectic Prompting이다. 하나의 모델 호출 안에서 ‘Momus’(엄격한 검증자)와 ‘Socratic’(완화된 검증자) 등 여러 페르소나를 정의하고, 이들 간의 대화를 통해 증명·채점·보조정리 추출을 동시에 수행한다. 실험에서는 Gemini 3.0 Pro, Gemini 2.5 Pro, Gemini 3.0 Flash 등 최신 오프‑더‑쉘프 모델에 동일 프롬프트를 적용했으며, 모델 성능에 따라 성능 차이가 존재하지만 전반적으로 비용 대비 효율이 크게 향상되었다.
성능 평가에서는 IMO‑ProofBench Advanced(PB‑Adv) 30문제 세트를 사용했다. 제안 파이프라인은 단일 실행 시 52.6%~57.9%의 정확도를 보였고, 두 번의 파이프라인 실행을 병합하는 ‘Judge’ 단계까지 포함하면 64.8%까지 상승한다. 특히 비용‑성능 파레토 곡선에서 $31/문제라는 평균 비용으로 67.1% 정확도를 기록, 경쟁 파이프라인(예: DeepSeekMath V2, Huang & Yang)보다 2배 이상 높은 성공률을 보이며 비용은 1/100 수준으로 낮췄다.
또한, Grader 설계에 대한 새로운 통찰도 제공한다. 기존에는 채점자가 ‘점수’를 진전의 지표로 삼았지만, 이 논문은 채점자가 ‘오류 목록’ 형태로 피드백을 제공하도록 설계함으로써 솔버가 실제로 어떤 부분을 고쳐야 하는지 명확히 알 수 있게 했다. 이와 함께 GraderBench와 같은 별도 평가 지표를 활용해 채점자의 신뢰성을 정량화하였다.
전체적으로 이 연구는 (1) 오프‑더‑쉘프 LLM만으로도 경쟁 수준의 수학 증명 성능을 달성할 수 있음을, (2) 기존 파이프라인의 근본적인 실패 원인인 인지 웰·플래토를 구조적으로 해결하는 방법을, (3) 비용 효율성을 크게 개선한 실용적인 프레임워크를 제시한다는 점에서 의미가 크다. 향후 연구는 보조정리 자동화 수준을 높이고, 형식 검증(Lean 등)과의 연계, 그리고 더 다양한 수학 도메인으로 확장하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기