Socratic‑Geo 다중‑에이전트 기반 자동 기하학 데이터 생성 및 추론

Socratic‑Geo 다중‑에이전트 기반 자동 기하학 데이터 생성 및 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Socratic‑Geo는 108개의 시드 문제만으로 교사‑솔버‑제너레이터 3‑에이전트가 상호작용하며 파라미터화된 Python 스크립트를 생성·검증해 고품질 이미지‑텍스트‑해답 삼중항을 자동으로 만들고, 이를 통해 기하학적 추론 모델과 이미지 생성 모델을 동시에 고성능으로 학습시킨다.

상세 분석

본 논문은 기하학적 추론에 필요한 고품질 이미지‑텍스트 쌍이 극도로 부족하다는 근본적인 문제를 인식하고, 이를 해결하기 위해 ‘소크라테스식’ 목표‑주도형 데이터 합성 프레임워크를 제안한다. 핵심은 세 개의 전문화된 에이전트(Teacher, Solver, Generator) 간의 폐쇄‑루프 상호작용이다. Teacher는 파라미터화된 Python 코드(그림 그리기 스크립트)를 생성하고, 두 단계의 자체 검증 메커니즘인 Reflect(수학적 풀이 가능성 검증)와 RePI(렌더링된 이미지의 시각적 타당성 검증)를 수행한다. 이 과정에서 코드와 이미지가 일치하고, 문제 진술과 해답이 논리적으로 일관되는지 자동으로 확인한다. Solver는 강화학습 기반의 Group Relative Policy Optimization(GRPO)을 사용해, Teacher가 제공한 (이미지, 질문, 정답) 삼중항을 통해 순수히 시도‑실패‑보상 신호만을 받으며 정책을 업데이트한다. Solver가 특정 문제에서 연속적으로 실패하면, 해당 실패 로그가 Teacher에게 전달되어 ‘문제 진단·분석·발명’ 파이프라인을 촉발한다. Teacher는 문제의 약점을 정확히 파악하고, 코드 수준에서 보조선 추가, 각도·길이 조정 등 최소 수정으로 새로운 문제를 생성한다. 이렇게 생성된 새로운 삼중항은 즉시 Solver의 커리큘럼에 추가되어 학습 효율을 극대화한다.

Generator는 별도의 학습 흐름을 가지며, Teacher가 만든 코드와 그에 대응하는 자연어형 그림 설명(instruction)을 매핑한 (instruction, image) 쌍을 수집한다. 이러한 고정밀 데이터는 diffusion 기반 이미지 생성 모델에 SFT(Supervised Fine‑Tuning) 방식으로 학습되어, 프로그램적 도식 지식을 신경망 가중치에 증류한다. 결과적으로 Generator는 기존의 무작위 이미지 생성보다 기하학적 구조와 텍스트 일치도가 높은 이미지를 생성한다.

실험에서는 108개의 시드 문제만을 사용했음에도 불구하고, Socratic‑Solver는 6개 벤치마크에서 평균 49.11% 정확도를 달성했으며, 이는 기존 최첨단 모델 대비 2.43 포인트, 데이터 양 대비 4배 적은 학습량에서도 +4.13 포인트 향상을 보였다. Socratic‑Generator는 GenExam‑Math에서 42.4%의 Relaxed Score를 기록, 오픈소스 모델 중 최고 성능을 기록하고, 상용 Gemini‑2.5‑Flash‑Image(43.1%)에 근접했다. 이러한 결과는 데이터 합성·학습이 긴밀히 결합될 때, 적은 초기 데이터로도 고성능 기하학적 추론 및 이미지 생성이 가능함을 입증한다.

본 연구는 (1) 목표‑주도형 프로그래밍 기반 데이터 합성, (2) 다중 에이전트 협업을 통한 학습‑생성 폐쇄 루프, (3) 강화학습과 이미지 생성 모델의 동시 최적화를 통한 효율적 데이터 활용이라는 세 가지 혁신적 기여를 제공한다. 특히, 기존 텍스트‑기반 소크라테스 프레임워크가 이미지와 텍스트 간 정합성을 보장하지 못했던 한계를, 코드‑이미지‑텍스트 삼중항을 직접 생성·검증함으로써 극복했다는 점이 주목할 만하다.


댓글 및 학술 토론

Loading comments...

의견 남기기