OPT 엔진 최적화 모델링 한계 벤치마크
초록
본 논문은 LLM의 최적화 모델링 능력을 체계적으로 평가하기 위해 확장 가능한 벤치마크 프레임워크인 OPT‑Engine을 제안한다. 10개의 전형적인 OR 문제(5개 LP, 5개 MIP)를 기반으로 난이도와 언어 변형을 조절할 수 있는 인스턴스를 자동 생성하고, 도구 통합 추론(TIR)과 순수 텍스트 추론(PTR) 두 패러다임을 비교한다. 실험 결과, 외부 솔버와 연계한 TIR이 복잡도가 증가할수록 견고함을 유지하는 반면, PTR은 성능 한계에 도달한다. 또한 제약식 자동 생성 단계가 전체 파이프라인에서 가장 큰 병목임을 확인하였다.
상세 분석
OPT‑Engine은 문제 클래스별 구조 파라미터(예: TSP의 도시 수, 포트폴리오 문제의 자산 수)를 입력으로 받아 수치 인스턴스를 생성하고, 이를 템플릿 기반 자연어 서술로 변환한 뒤 LLM을 이용해 다양한 서술 변형을 만든다. 각 변형은 검증 모듈을 통해 수치 일관성과 제약식 보존 여부를 확인하고, 불일치 시 재생성한다는 재귀적 절차를 갖는다. 이 설계는 (1) 난이도 조절이 가능한 연속적인 스케일링, (2) 언어적 변동과 구조적 변동을 독립적으로 테스트할 수 있는 실험 설계를 가능하게 한다.
실험에서는 GPT‑4, Claude‑2, Llama‑2‑70B 등 최신 모델을 대상으로 PTR과 TIR 두 접근법을 동일한 10개 인스턴스(각 클래스당 10개)에서 평가하였다. 정확도는 상대 오차 10⁻³ 이하를 정답으로 정의한 “pass@1”로 측정했다. 결과는 다음과 같다.
- 복잡도가 낮은 LP/소규모 MIP에서는 PTR도 70~80% 수준의 정확도를 보였지만, 변수·제약식 수가 2배, 5배로 증가하면 급격히 30% 이하로 떨어졌다. 반면 TIR은 90% 이상을 유지했다.
- 제약식 자동 생성 오류가 전체 오류의 55%를 차지했으며, 이는 모델이 자연어에서 정확한 변수·제약식 매핑을 수행하지 못함을 의미한다. 문제 해석 단계는 비교적 높은 정확도를 보였다.
이러한 결과는 LLM이 “수학적 추론”에는 강하지만, “구조적 모델링” 특히 제약식 표현에서 한계가 있음을 시사한다. 외부 솔버와의 인터페이스를 활용하면 계산 부담을 오프로드하고, 모델이 생성한 코드가 정확히 실행될 수 있어 복잡도 확장에 강인함을 제공한다.
한계점으로는 현재 벤치마크가 10개의 전형적인 문제에 국한되어 있어 도메인 특수성이 높은 산업 현장 문제에 대한 일반화는 아직 검증되지 않았다. 또한 LLM‑Judge 기반 검증이 완전 자동화된 정밀 검증을 대체하기엔 부족할 수 있다. 향후 연구는 (가) 더 다양한 비선형·동적 최적화 문제 추가, (나) 인간 전문가와의 협업을 통한 제약식 교정 메커니즘, (다) 멀티모달 입력(표, 그래프)과 연계한 확장성을 탐색하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기