기하학 문제 해결을 위한 간결한 기하 언어 브릿지: LLM 활용 새로운 패러다임
초록
본 논문은 시각 정보를 텍스트 형태의 Conditional Declaration Language(CDL)로 변환한 뒤, 기존 LLM을 그대로 활용해 평면 기하 문제를 해결하는 방법을 제안한다. MLLM 인터프리터를 CoT‑augmented SFT와 GRPO(그룹 상대 정책 최적화)로 학습시키고, CDL 매칭 보상을 설계해 적은 데이터(5.5k)만으로도 최신 MLLM 대비 경쟁력 있는 성능을 달성한다.
상세 분석
이 연구는 기존 멀티모달 LLM이 시각 인식과 논리 추론을 동시에 학습하면서 기본 LLM의 추론 능력이 약화된다는 한계를 정확히 짚어낸다. 이를 해결하기 위해 “시각 → 텍스트” 변환 단계와 “텍스트 → 추론” 단계를 명확히 분리한다. 핵심 아이디어는 Conditional Declaration Language(CDL) 를 사용해 기하 도형을 구조화된 선언문 형태로 압축하는 것이다. CDL은 ‘Shape’, ‘Collinear’, ‘Cocircular’, ‘Equal(MeasureOfAngle…)’ 등 정형화된 토큰으로 구성돼, 일반 자연어 설명보다 훨씬 짧고 검색 공간을 크게 축소한다.
MLLM 인터프리터는 기존 오픈소스 멀티모달 모델(Qwen 2.5‑VL, Qwen 3‑VL 등)을 초기화하고, 두 단계 학습 파이프라인을 적용한다. 첫 번째 단계는 CoT‑augmented Supervised Fine‑Tuning(SFT) 로, 입력 이미지와 함께 인간이 작성한 체인‑오브‑생각(Chain‑of‑Thought) 텍스트를 제공해 단계별 논리 흐름을 학습한다. 여기서
두 번째 단계는 Group Relative Policy Optimization(GRPO) 로, 샘플링된 여러 후보 CDL에 대해 CDL 매칭 보상을 계산한다. 매칭 보상은 ConsCDL, ImgCDL, TextCDL 각각에 대해 정밀도·재현율 기반의 점수를 부여해, 부분적인 오류까지도 밀도 높은 피드백을 제공한다. 기존 방식이 전체 정답과의 일치만을 보상으로 삼아 신호가 희박한 반면, 매칭 보상은 토큰 수준에서 정교한 교정을 가능하게 한다.
데이터 측면에서는 기존 FormalGeo7k v2의 품질 문제(다이어그램‑문제 불일치, 잘못된 CDL)를 전면 재검토하고, 4명의 annotator가 교차 검증한 FormalGeo7k‑Rec‑CoT 를 구축했다. 자동 파서가 CDL을 해석해 자연어 CoT를 생성함으로써, SFT 단계에 풍부한 학습 샘플을 제공한다.
실험 결과는 세 가지 벤치마크(FormalGeo7k‑Rec‑CoT, UniGeo, MathVista)에서 5.5k 샘플만으로도 최신 오픈소스 MLLM(예: Gemini‑2.5‑Pro, Qwen‑3‑30B)보다 우수하거나 동등한 정확도를 기록한다. 특히 “Caption”(Gemini‑2.5‑Pro가 생성한 캡션)과 “GT CDL”(정답 CDL)만을 사용했을 때 LLM 자체가 80 % 이상 정확도를 보이며, 시각 정보를 텍스트로 변환했을 때 LLM의 잠재력이 크게 발휘된다는 점을 실증한다.
핵심 기여는 (1) LLM이 시각 정보를 적절히 텍스트화하면 강력한 기하 문제 해결사가 된다는 발견, (2) 간결한 CDL을 이용해 MLLM 인터프리터 학습을 효율화하고, 매칭 보상 기반 GRPO로 학습 안정성을 높인 점, (3) 고품질 FormalGeo7k‑Rec‑CoT 데이터셋을 공개한 점이다. 이 접근법은 시각‑언어 결합이 필수적인 다른 과학·공학 분야에도 확장 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기