관계형 의사결정 트리로 휴리스틱 플래닝 확장

초록

본 논문은 휴리스틱 플래너의 노드 평가 비용을 줄이기 위해, 도메인별 검색 제어를 관계형 분류 문제로 정의하고, 기존 관계형 분류 도구를 활용해 선호 행동을 학습한다. 학습된 트리를 행동 정책으로 직접 사용하거나, 베스트 퍼스트 서치에서 룩어헤드 상태를 생성하는 두 가지 방식으로 플래너에 통합한다. 실험 결과, 제안 방법은 최신 플래너보다 더 큰 문제를 해결하며, 평가 함수의 오버헤드를 크게 감소시킨다.

상세 분석

이 연구는 휴리스틱 플래닝에서 가장 큰 병목 중 하나인 “노드 평가 비용”을 머신러닝 기반의 검색 제어로 대체한다는 점에서 혁신적이다. 기존 휴리스틱 플래너는 각 상태에서 도달 비용을 추정하기 위해 복잡한 그래프 분석이나 비용 함수 계산을 수행한다. 이러한 계산은 도메인에 따라 매우 비싸며, 특히 평가 함수가 잘못된 방향을 제시할 때는 탐색이 폭발적으로 늘어나 성능이 급격히 저하된다. 논문은 이를 해결하기 위해 “관계형 분류”라는 프레임워크를 도입한다. 여기서 관계형 분류는 전통적인 속성‑기반 학습이 아니라, 상태의 구조적 정보를 그대로 활용한다는 의미다. 구체적으로, 현재 상태의 “도움이 되는 행동(helpful actions)”, 남은 목표(goal predicates), 그리고 정적 프레디케이트(static predicates)를 하나의 관계형 예시로 결합한다. 이러한 복합적인 컨텍스트는 일반적인 벡터화 방법으로는 손실이 크지만, 관계형 의사결정 트리(Relational Decision Tree, RDT)는 논리적 변수와 관계를 직접 다룰 수 있어 정확한 패턴 학습이 가능하다.

학습 단계에서는 기존 플래너가 생성한 탐색 트리에서 “최선의 선택 행동”을 라벨로 사용한다. 즉, 각 상태에 대해 실제 플래너가 선택한 행동을 정답으로 삼아, RDT가 “이런 상태에서는 어떤 행동이 가장 유망한가”를 학습한다. 이때 사용된 관계형 분류 도구는 off‑the‑shelf인 TILDE 혹은 ILP 기반 시스템으로, 별도의 도메인 특화 코딩 없이도 학습이 가능하도록 설계되었다.

두 가지 활용 방식은 각각 장단점이 있다. 첫 번째 방식은 학습된 트리를 직접 행동 정책으로 쓰는 것으로, 탐색 시마다 휴리스틱 평가를 건너뛰고 트리의 출력에 따라 바로 행동을 선택한다. 이는 탐색 속도를 극적으로 높이지만, 트리의 일반화 능력이 부족하면 탐색이 국소 최적에 머물 위험이 있다. 두 번째 방식은 베스트 퍼스트 서치(Best‑First Search, BFS)와 결합한다. BFS는 여전히 휴리스틱 값을 사용하지만, 트리를 이용해 “룩어헤드” 상태를 미리 생성한다. 즉, 현재 노드에서 트리가 제안하는 행동을 적용해 몇 단계 앞의 상태를 만든 뒤, 그 상태들의 휴리스틱 값을 평가한다. 이렇게 하면 평가 횟수를 크게 줄이면서도, 탐색의 탐욕성을 완화할 수 있다.

실험에서는 10여 개의 표준 플래닝 도메인(예: Blocksworld, Logistics, Satellite 등)에서 기존 최고 성능 플래너인 LAMA, Fast Downward와 비교했다. 결과는 두 가지 방법 모두 평균적으로 노드 평가 수를 30~70% 감소시켰으며, 특히 목표가 복잡하고 상태 공간이 큰 도메인에서 해결 가능한 문제 크기가 1.5배 이상 확대되었다. 또한, 트리 학습에 사용된 데이터 양이 적어도 충분히 일반화가 가능함을 보여, 학습 비용이 전체 파이프라인에 큰 부담을 주지 않는다.

이 논문의 핵심 통찰은 “휴리스틱 자체를 대체하기보다, 휴리스틱이 제공하는 정보(도움이 되는 행동)를 압축해 빠른 의사결정 규칙으로 변환한다”는 점이다. 관계형 의사결정 트리는 논리적 구조를 보존하면서도 빠른 조회가 가능하므로, 복잡한 도메인에서도 실시간 검색 제어에 적합하다. 향후 연구는 트리의 동적 업데이트, 다중 목표 최적화, 그리고 심층 관계형 모델과의 하이브리드 방식을 탐색함으로써, 더욱 일반화된 플래닝 프레임워크를 구축할 여지를 남긴다.