제약 만족 문제에서 LLM을 포멀라이저로 활용한 현실 검증
초록
본 논문은 네 개의 실제 제약 만족(CSP) 도메인에 대해 6개의 최신 대형 언어 모델을 평가하여, 모델이 문제를 직접 풀어내는 LLM‑as‑solver 방식과 문제를 형식화된 프로그램으로 변환한 뒤 외부 솔버에 맡기는 LLM‑as‑formalizer 방식을 비교한다. 결과적으로 대부분의 경우 LLM‑as‑formalizer가 LLM‑as‑solver보다 성능이 낮으며, 복잡도가 증가할수록 두 방식 모두 급격히 성능이 저하된다. 오류 분석을 통해 제약 누락·오정의와 같은 의미적 오류가 주요 원인임을 밝히고, 리비전 메커니즘이 일부 오류를 완화하지만 근본적인 한계는 남아 있음을 지적한다.
상세 분석
이 연구는 최근 LLM을 “포멀라이저”로 활용한다는 주장에 대한 실증적 검증을 목표로 한다. 네 개의 실제 CSP 벤치마크(캘린더 스케줄링, 여행 계획, 회의 계획, Zebra 논리 퍼즐)를 선정하고, 각 도메인에서 100개의 샘플을 무작위 추출해 실험에 사용하였다. 실험에 투입된 모델은 DeepSeek‑R1, Qwen3‑32B, o3‑mini‑high, GPT‑5 등 네 가지 대형 추론 모델(LRM)과 DeepSeek‑V3, Qwen2.5‑32B 등 두 가지 비추론 모델을 포함한다.
두 가지 파이프라인을 비교한다. ① LLM‑as‑solver: 입력을 그대로 받아 체인‑오브‑생각 없이 직접 정답을 출력한다(필요 시 최소한의 추론 토큰만 사용). ② LLM‑as‑formalizer: 입력을 받아 파이썬 코드 혹은 Z3 SMT 인터페이스 코드를 생성하고, 이를 외부 솔버에 전달해 해를 도출한다. 코드 생성 후 오류가 발생하거나 해를 찾지 못하면 최대 5번까지 리비전(revision) 요청을 허용한다.
핵심 결과는 다음과 같다. 첫째, LLM‑as‑formalizer는 24개의 모델‑데이터 조합 중 15곳에서 LLM‑as‑solver보다 낮은 정확도를 보였다. 특히 복잡도가 높은 여행 계획 도메인에서는 모든 모델이 포멀라이저 방식에서 현저히 뒤처졌다. 둘째, 복잡도(제약 수)와 성능 간의 상관관계를 살펴보면, 두 방식 모두 제약 수가 많아질수록 정확도가 급격히 감소한다. 파이썬 포멀라이저가 SMT 포멀라이저보다 15/24 경우에서 우수했지만, 복잡도 증가에 대한 내성은 기대에 못 미쳤다. 셋째, 오류 유형을 세분화한 결과, 구문 오류는 비교적 드물었으며 리비전으로 대부분 해결된다. 그러나 “잘못된 계획” 오류가 가장 빈번했으며, 이는 제약을 정확히 번역하거나 알고리즘적 추론을 수행하지 못함에서 기인한다. 구체적으로는(1) 제약 누락, (2) 제약 오정의, (3) 알고리즘 로직 오류가 주요 원인으로 확인되었다.
또한, 모델 크기와 추론 토큰 스케일링이 성능에 미치는 영향을 분석했을 때, LRM이라 불리는 추론 전용 모델들이 일반 모델보다 약간 높은 토큰 효율성을 보였지만, 근본적인 한계—즉, 복잡한 논리 구조를 정확히 코드화하는 능력—는 여전히 부족했다. 저자들은 이러한 현상이 사전 학습 단계에서 “solver‑like” 토큰이 과도하게 학습된 결과일 수 있다고 추정한다.
마지막으로, 저자들은 향후 연구 방향으로 (1) 제약 번역 정확도를 높이기 위한 데이터 증강 및 정교한 프롬프트 설계, (2) 오류 검출 및 자동 리비전 메커니즘 강화, (3) LLM과 전통적 CSP 솔버 간의 인터페이스 최적화, (4) 모델 내부의 논리 추론 모듈을 명시적으로 학습시키는 방법 등을 제시한다. 이러한 제언은 LLM‑as‑formalizer가 제공하는 검증 가능성·해석 가능성·견고성을 유지하면서도 실제 적용 가능성을 높이는 데 기여할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기