LLM 기반 휴리스틱 자동 설계의 게임 이론적 공동 진화

LLM 기반 휴리스틱 자동 설계의 게임 이론적 공동 진화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM을 활용한 휴리스틱 자동 설계(AHD)를 정적 평가에서 벗어나, 솔버와 인스턴스 생성기를 두 플레이어로 하는 제로섬 게임으로 모델링한다. 알고리즘 공간 응답 오라클(ASRO) 프레임워크는 양측 전략 풀을 유지하고, 메타‑전략을 기반으로 LLM‑구동 베스트‑응답 오라클을 반복 호출해 새로운 프로그램을 생성한다. 실험 결과, 다양한 조합 최적화 문제에서 정적 훈련 기반 베이스라인을 크게 앞서며, 분포 변화와 구조적 전이에도 강인한 일반화 성능을 보였다.

상세 분석

ASRO는 기존 LLM‑AHD 파이프라인이 “생성‑평가‑정제” 순환에 머물러 고정된 인스턴스 분포에 과적합되는 한계를 게임 이론적으로 해소한다. 두 플레이어(솔버 S와 생성기 G)는 각각 실행 가능한 파이썬/코드 형태의 프로그램으로 표현되며, 솔버는 주어진 인스턴스 x에 대해 목표값 V(s,x)를 최소화하고, 생성기는 x를 샘플링해 평균 갭 U(s,g)=Eₓ∼g


댓글 및 학술 토론

Loading comments...

의견 남기기