PathWise 세계 모델 기반 자동 휴리스틱 설계 계획
초록
본 논문은 대형 언어 모델(LLM)을 활용해 조합 최적화 문제의 휴리스틱을 자동으로 설계하는 기존 방법들의 한계를 극복하고자, 엔타일먼트 그래프를 상태 기억으로 이용하는 다중 에이전트 프레임워크인 PathWise를 제안한다. 정책 에이전트가 고수준 진화 행동을 계획하고, 세계 모델 에이전트가 이를 기반으로 휴리스틱 코드를 생성·평가하며, 비평가 에이전트가 반성적 피드백을 제공함으로써 탐색을 상태‑인식적 플래닝으로 전환한다. 실험 결과, PathWise는 평가 횟수를 절반 수준으로 줄이면서도 기존 인구 기반·트리 기반 방법보다 빠르게 우수한 휴리스틱을 발견한다.
상세 분석
PathWise는 기존 LLM 기반 자동 휴리스틱 설계(AHD)에서 “정적 연산자·프롬프트”에 의존해 탐색이 단순한 시도‑오류에 머무는 문제를 구조적 메모리와 플래닝 메커니즘으로 해결한다. 핵심 아이디어는 엔타일먼트 그래프(Entailment Graph) 를 도입해 현재 탐색 상태를 압축된 그래프 형태로 유지하는 것이다. 그래프의 각 노드는 (휴리스틱 코드, 유도 근거, 알고리즘 설명, 성능, 부모 메타데이터) 로 구성되며, 부모‑자식 관계는 “어떤 부모 집합을 어떤 자연어 지시(κ)로 변형했는가”를 명시한다.
이 그래프는 두 가지 역할을 수행한다. 첫째, 상태 기억으로서 과거에 어떤 변형이 성공했는지, 어떤 조합이 실패했는지를 LLM에게 전달한다. 둘째, 플래닝 공간을 제공해 정책 에이전트가 “어떤 부모 집합을 선택하고 어떤 변형 지시를 만들 것인가”라는 고수준 행동을 정의하도록 한다.
다중 에이전트 구조는 다음과 같다.
- 정책 에이전트(πₚ) – 현재 그래프와 비평가가 제공한 반성(ρₚ)을 입력으로, Nₐ개의 후보 행동 (S, κ)를 샘플링한다. 여기서 S는 그래프의 활성 프론티어에서 선택된 부모 집합이며, κ는 자연어 형태의 변형 지시이다. 정책은 고정된 연산자 대신 κ를 통해 새로운 연산자를 자유롭게 발명할 수 있다.
- 세계 모델 에이전트(π_wm) – 각 후보 행동마다 N_w개의 코드 롤아웃을 생성한다. 입력은 선택된 부모 코드·설명, κ, 그리고 세계 모델 비평가의 피드백(ρ_wm)이다. 생성된 코드와 설명은 평가 데이터 D에 대해 실행·평가되고, 가장 높은 기대 성능 P(h;D)를 보인 롤아웃이 최종 후보가 된다.
- 비평가 에이전트 – 정책 비평가와 세계 모델 비평가가 각각 행동 전략과 코드 품질을 분석한다. 비평가는 그래프 구조, 성능 변화, 다양성 지표 등을 종합해 자연어 형태의 반성(ρₚ, ρ_wm)을 생성하고, 다음 단계의 샘플링 분포를 조정한다.
다양성 확보를 위해 프롬프트 레벨에서 프롬프트 교란(Prompt Perturbation) 과 다중 샘플링을 도입한다. 정책과 세계 모델의 출력이 수렴하면 비평가가 의도적으로 프롬프트를 변형해 탐색 공간을 넓힌다. 이는 특히 평가 예산이 제한된 상황에서 중복 탐색을 방지하고, 새로운 연산자와 구조를 발견하도록 유도한다.
학습 및 탐색은 두 단계 타임스케일로 진행된다. 외부 루프(r)는 인구 기반 루트 노드 집합 Pᵣ (크기 Nₚ)을 유지·업데이트하고, 내부 루프(t)는 해당 루트에서 엔타일먼트 그래프를 점진적으로 확장한다. 각 내부 단계에서 그래프는 새로운 노드 v*를 추가하고, 사용된 부모는 제거하면서 전역 최적 노드는 보존한다. 이 하이브리드 그래프‑인구 접근은 트리 기반 MCTS‑AHD가 겪는 탐색 폭발을 억제하고, 순수 인구 기반 방법이 겪는 중간 결과 손실을 보완한다.
실험에서는 TSP, CVRP, 그리고 다양한 스케줄링·배치 문제에 대해 GPT‑4o‑mini, GPT‑4‑Turbo 등 여러 LLM 백본을 교차 검증하였다. 평가 예산 nₑ=500(기준 1000)에서도 PathWise는 평균 성능이 5‑12% 상회하고, 수렴 속도는 기존 방법 대비 1.8‑2.3배 빨랐다. 특히 대규모 인스턴스(노드 수 500‑1000)에서는 그래프 기반 메모리가 연산 비용을 절감하면서도 높은 품질의 휴리스틱을 지속적으로 생성하는 것이 확인되었다.
요약하면, PathWise는 상태‑인식 플래닝, 다중 에이전트 협업, 엔타일먼트 그래프 기반 메모리, 프롬프트 다양성이라는 네 가지 핵심 설계를 통해 LLM 기반 AHD의 효율성과 확장성을 크게 향상시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기