제약을 만족하는 LLM 기반 조합 최적화 프레임워크 FALCON

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FALCON은 LLM이 생성하는 해의 구문·의미적 타당성을 보장하기 위해 (1) 문제별 CFG 기반 문법 제약 디코딩, (2) 의미적 위반을 자동 복구하는 Feasibility Repair Layer, (3) 인스턴스 난이도에 따라 샘플 수를 조절하는 Adaptive Best‑of‑N 샘플링을 결합한다. 학습 단계에서는 목표값 차이를 가중치로 활용한 BOPO(Best‑anchored Objective‑guided Preference Optimization)로 선호 쌍을 자동 생성·학습한다. 이론적으로 100 % Feasibility와 복구에 따른 품질 손실 상한을 증명했으며, 7개의 NP‑hard 문제에서 기존 신경·LLM 기반 솔버와 동등하거나 우수한 최적성·완전성을 달성했다.

상세 분석

FALCON의 핵심 설계는 LLM의 “무제한 생성” 특성을 제약 만족이라는 두 단계의 필터링 구조로 전환한다는 점에 있다. 첫 번째 단계인 Grammar‑Constrained Decoding은 각 문제마다 정의된 Context‑Free Grammar(CFG)를 기반으로 파싱 자동자(PDA)를 실시간으로 토큰 마스킹에 적용한다. 이 과정은 토큰 선택 시 문법 위반을 즉시 차단하므로, 출력 문자열이 사전에 정의된 형식(예: TSP 경로, CVRP 라우트 리스트 등)을 반드시 만족한다. 논문에서는 PDA 전이 탐색 비용을 O(|Σ|·|Q|)로 분석했으며, 실제 LLM vocabularies가 30K 수준임을 감안하면 전체 디코딩 비용에 미치는 영향은 무시할 수 있다.

두 번째 단계인 Feasibility Repair Layer는 구문적으로는 올바르지만 의미적으로는 제약을 위반하는 해를 다루며, 정의 3.5에 따라 ‘Feasibility’, ‘Idempotence’, ‘Bounded Locality’ 세 가지 속성을 만족하도록 설계된 복구 연산자를 제공한다. 예를 들어 CVRP에서는 초과된 용량을 가진 라우트를 분할하고, MIS에서는 인접 정점 충돌을 고도수 정점 제거 방식으로 해결한다. 이러한 연산자는 입력 해와 복구된 해 사이의 거리 d가 위반 정도 v에 비례하도록 보장하므로, Theorem 3.7에 의해 목표 함수값의 악화가 L_f·α·v(·) 이하로 제한된다. 즉, 복구가 빈번히 일어나더라도 품질 손실은 위반 규모에 직접 비례하는 한계 내에 머문다.

세 번째 혁신은 Adaptive Best‑of‑N Sampling이다. 샘플 일관성(consistency)을 모델 출력 분포의 Rényi 엔트로피와 연결시켜, 높은 일관성을 보이는 경우 조기 종료를, 낮은 일관성을 보이는 경우 추가 샘플링을 유도한다. BayesianConfidence(β‑Binomial) 기반의 종료 기준은 이론적으로 Theorem 3.13에서 제시된 기대 샘플 수 상한을 만족한다. 특히 복구 레이어 덕분에 N=1만으로도 100 % Feasibility를 확보할 수 있어, 전통적인 재샘플링 방식에 비해 최대 O(log (1/δ)·p_f) 배의 효율성을 제공한다.

학습 측면에서는 BOPO를 도입한다. 기존 Preference Optimization은 인간 라벨이 필요하거나 보상 차이가 희소한 문제에 취약했지만, BOPO는 각 솔루션 쌍의 목표값 차이를 가중치로 사용해 자동으로 “우수·열등” 선호를 생성한다. 가중치가 큰 쌍에 더 큰 그라디언트가 할당되어, 목표 함수와 직접 연관된 dense supervision을 제공한다. 논문은 O(1/√T) 수렴률을 표준 가정 하에 증명했으며, 실험에서는 단순 Reward Shaping 대비 학습 안정성과 최적성 향상을 확인했다.

전체 실험에서는 TSP, CVRP, OP, MIS, MVC, PFSP, JSSP 등 7개의 대표적인 NP‑hard 문제를 대상으로, FALCON이 100 % Feasibility를 유지하면서 평균 optimality gap이 기존 LLM‑based 솔버(예: GPT‑3.5, Codex)와 최신 신경 기반 메타휴리스틱(예: GNN‑Solver, Neuro‑SAT)보다 동등하거나 더 낮았다. 특히 복잡한 제약이 많은 CVRP와 JSSP에서 복구 연산이 평균 1.2 % 수준의 목표값 상승만을 초래했으며, Adaptive Sampling 덕분에 평균 추론 시간은 30 % 이상 절감되었다. 이러한 결과는 FALCON이 실무 적용 시 요구되는 ‘안전·신뢰성’과 ‘성능’ 두 축을 동시에 만족한다는 강력한 증거가 된다.

제약을 만족하는 LLM 기반 조합 최적화 프레임워크 FALCON

초록

상세 분석

댓글 및 학술 토론

의견 남기기