도메인 특화 휴리스틱으로 DPLL 솔버 성능 향상
초록
본 논문은 DPLL 기반 ASP 솔버에 대해 오프라인 학습을 통해 도메인‑특화 선택 휴리스틱을 생성하고, 이를 선택점(choice‑point) 선택에 적용함으로써 어려운 인스턴스에서 최대 3배, 평균 2배의 성능 향상을 달성한다는 실험 결과를 제시한다.
상세 분석
이 연구는 기존 DPLL 기반 ASP 솔버가 일반적인 휴리스틱에 의존해 탐색 방향을 결정함으로써 특정 도메인에서는 비효율적인 탐색 경로에 빠지는 문제점을 지적한다. 이를 해결하기 위해 저자들은 DORS( Domain‑Specific Heuristics for DPLL‑based solvers) 프레임워크를 제안한다. 핵심 아이디어는 대표적인 도메인 인스턴스를 오프라인으로 여러 번 실행하여 선택점(choice literal)들의 결정 순서를 기록하고, 각 선택점이 나타난 레벨(level) 정보를 추출해 상태‑행동 매핑 정책을 학습하는 것이다. 기존 solve 알고리즘을 solvecp 로 변형해 선택점 리스트 S 를 유지하고, 성공적인 해답을 찾은 경우 (해답, 선택점 리스트)를 반환한다. 이후 여러 인스턴스에서 수집된 결정 시퀀스 d(I)를 합쳐 각 확장 리터럴 e에 대한 발생 빈도와 레벨 정보를 통계화하고, 이를 기반으로 “어떤 상태에서 어떤 리터럴을 선택할 확률이 높은가”를 추정한다. 학습된 휴리스틱은 실행 시 choose_literal 함수에 삽입되어, 일반적인 휴리스틱 대신 도메인‑특화 가중치를 적용한다. 실험에서는 산업용 문제와 경쟁용 베치마크를 대상으로, 기존 CLASP·SMODELS 대비 최대 10³배, 평균 2배 이상의 속도 향상을 기록했으며, 특히 타임아웃으로 종료되던 사례가 거의 사라졌다. 논문은 또한 파라미터화된 일반 휴리스틱, CLASPFOIL과 같은 자동 구성 기법, 그리고 런타임 충돌 학습과의 차별점을 명확히 한다. 그러나 학습 단계가 오프라인에 국한돼 새로운 인스턴스가 도메인 특성을 크게 벗어날 경우 효과가 감소할 수 있다. 또한 정책 학습이 단순히 빈도 기반이므로 복잡한 상호작용을 포착하기엔 한계가 있다. 향후 동적 학습과 결합하거나, 강화학습 기반 정책 최적화를 도입하면 더욱 일반화된 성능 향상이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기