HeuriGym: LLM 기반 휴리스틱을 평가하는 새로운 조합 최적화 벤치마크

HeuriGym: LLM 기반 휴리스틱을 평가하는 새로운 조합 최적화 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HeuriGym은 LLM이 직접 휴리스틱 알고리즘을 설계·실행·피드백을 통해 반복 개선하도록 하는 에이전트형 프레임워크이다. 9개의 최신 모델을 9개의 실세계 조합 최적화 문제에 적용해 품질·수율을 동시에 측정하는 QYI 지표를 제시하고, 현재 모델들의 도구 활용·계획·적응적 추론 능력이 전문가 수준에 크게 못 미침을 밝힌다.

상세 분석

HeuriGym은 기존의 폐쇄형 정답 기반 벤치마크와 주관적 인간‑대 인간 비교 방식의 한계를 정확히 짚고, 조합 최적화라는 “잘 정의된 목표 + 거대한 해 공간”을 평가 토대로 선택한 점이 혁신적이다. 특히 LLM에게 완전한 함수 시그니처만 제공하고, 데이터 구조·알고리즘 설계 전 과정을 스스로 코딩하도록 요구함으로써, 실제 엔지니어링 워크플로우를 그대로 재현한다. 피드백 루프는 (1) 실행 단계에서 컴파일·런타임 오류를 검출, (2) 솔루션 단계에서 형식·시간 제한을 확인, (3) 검증 단계에서 문제‑특정 제약을 만족하는지를 자동 검증한다. 이 세 단계가 순차적으로 로그와 진단 메시지를 프롬프트에 재삽입함으로써 LLM이 “학습‑시행‑수정” 사이클을 수행하도록 만든다.

Metric 설계에서도 주목할 만하다. 기존 PASS@k는 단일 시도·정답 존재 여부만 측정하지만, HeuriGym은 SOLVEs@i(반복 횟수 i 내 성공률)와 별도의 QUALITY·YIELD을 결합한 QYI(0~1) 지표를 도입한다. QUALITY는 LLM이 만든 해의 비용을 전문가 해와 비교해 정규화하고, YIELD은 검증을 통과한 인스턴스 비율을 반영한다. 이렇게 하면 “몇 개를 풀었는가”와 “얼마나 좋은 해를 냈는가”를 동시에 파악할 수 있다.

실험 결과는 현재 최첨단 모델조차 QYI 0.6 수준에 머물러, 전문가(1.0)와 큰 격차가 있음을 보여준다. 특히 도구 활용(GPU·ILP 솔버 연동), 장기 계획(문제 분해·다단계 알고리즘 설계), 피드백 기반 적응 추론에서 일관된 오류가 발견된다. 예를 들어 GPT‑o4‑mini‑high은 코드 컴파일은 통과하지만, 복잡한 제약(예: 연산 자원 제한) 위반이나 비용 최적화에서 전문가 수준에 미치지 못한다. Gemini‑2.5‑Pro 역시 비슷한 패턴을 보이며, 반복 횟수가 늘어나도 품질 향상이 제한적이다.

HeuriGym이 제공하는 오픈소스 문제 세트(운영체제 스케줄링, 바이오 네트워크 설계, 물류 라우팅 등)는 도메인 별로 특화된 검증 로직을 포함하고 있어, 모델이 단순히 “알고리즘 템플릿”을 채우는 수준을 넘어 문제 고유의 구조를 탐색하도록 강제한다. 이는 기존의 NPHardEval이나 GraphArena가 제한된 인스턴스 규모와 정확도 중심 평가에 머무는 것과는 차별화된다. 또한, HeuriGym은 “데모 셋”을 활용한 few‑shot 학습과 “평가 셋”을 구분함으로써, 모델이 과도한 메모리 기반 정답 복제에 의존하지 않도록 설계되었다.

전반적으로 HeuriGym은 LLM이 실제 엔지니어링·과학 문제 해결에 필요한 “알고리즘 창의성·도구 연동·반복적 디버깅” 능력을 정량화하고, 현재 모델들의 약점을 구체적으로 드러내는 중요한 평가 인프라다. 향후 연구는 (1) 더 복잡한 제약(다목적 최적화) 추가, (2) 자동 프롬프트 최적화와 메타‑학습을 통한 반복 효율성 향상, (3) 인간 전문가와의 협업 시나리오를 포함한 하이브리드 평가 체계 구축 등으로 확장될 여지가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기