LLM 기반 제약 모델링 평가를 위한 새로운 벤치마크 DCP Bench Open
초록
본 논문은 다양한 이산 조합 최적화 문제를 포함한 DCP‑Bench‑Open 벤치마크를 공개하고, 세 가지 서로 다른 제약 모델링 프레임워크(Python‑기반 CPMpy, OR‑Tools API, MiniZinc)에서 대형 언어 모델(LLM)의 모델링 성능을 체계적으로 평가한다. 프롬프트 설계, 검색‑증강 인‑컨텍스트 학습, 체인‑오브‑생각, 다중 샘플 투표, 자기 검증 등 테스트‑타임 계산 기법을 적용해 정확도를 91%까지 끌어올렸다.
상세 분석
논문은 먼저 제약 모델링이 산업 현장에서의 병목 현상임을 강조하고, 기존 NL‑to‑CP 데이터셋이 규모·다양성·복잡도에서 한계가 있음을 지적한다. 이를 해소하기 위해 CP‑Bench을 확장한 DCP‑Bench‑Open을 구축했으며, 164개의 문제(23개는 다중 인스턴스)를 선정해 문제 설명, 정답 모델, 실행 가능한 솔루션을 모두 제공한다. 모델링 프레임워크는 추상화 수준과 인터페이스 차이에 따라 저수준 OR‑Tools Python API, 고수준 Python‑기반 CPMpy, 그리고 도메인‑특화 MiniZinc 언어로 구분된다.
실험에서는 GPT‑4, Claude‑2, Llama‑2‑70B 등 최신 LLM들을 0‑shot, 1‑shot, 그리고 단계별 시스템 프롬프트(기본, 가이드라인, 문서)로 평가했다. 결과는 고수준 Python 프레임워크가 가장 높은 정확도를 보였으며, 특히 CPMpy에서는 75%에 달하는 성공률을 기록했다. 반면 MiniZinc은 구문·구조가 복잡해 57.3%에 머물렀다.
다음으로 테스트‑타임 계산 기법을 적용했다. 첫째, Retrieval‑Augmented In‑Context Learning(RAICL)으로 유사 문제와 솔루션을 프롬프트에 삽입해 컨텍스트를 풍부하게 했다. 둘째, 체인‑오브‑생각(Chain‑of‑Thought) 프롬프트를 사용해 모델이 문제를 단계별로 분석·분해하도록 유도했다. 셋째, 동일 프레임워크에서 다중 샘플을 생성하고 솔루션 다수결 투표를 통해 가장 일관된 모델을 선택했다. 넷째, 실행 오류나 부정확한 출력이 감지되면 자기 검증(Self‑Verification) 프롬프트를 재요청해 모델을 반복적으로 수정하도록 설계했다. 이러한 복합 전략을 모두 적용했을 때 전체 정확도가 91%에 도달했으며, 특히 복잡한 다중 인스턴스 문제에서의 성능 향상이 두드러졌다.
또한 논문은 평가 메트릭으로 단순 정답 일치뿐 아니라 솔루션 레벨 검증을 도입했다. 즉, 생성된 모델이 실제로 문제를 해결하고 최적(또는 만족) 해를 찾는지를 확인함으로써, 동일한 최적해가 여러 개 존재하는 경우에도 공정한 평가가 가능하도록 했다.
전체적으로 이 연구는 (1) 현실적인 문제 다양성을 반영한 공개 벤치마크 제공, (2) 프레임워크별 LLM 성능 차이 정량화, (3) 최신 테스트‑타임 기법을 제약 모델링에 성공적으로 적용한 세 가지 주요 공헌을 제시한다. 향후 연구는 더 큰 규모의 LLM, 자동 오류 진단 및 교정 루프, 그리고 인간‑인-루프 협업 시스템 구축으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기