소프트 목표는 비용 기반 모델로 대체 가능

초록

이 논문은 플래닝에서 소프트 목표(선호도)를 별도의 확장 없이 행동 비용만으로 표현할 수 있음을 보인다. 저자는 소프트 목표와 페널티를 비용 기반 플래닝 문제로 컴파일하는 방법을 제시하고, 국제 플래닝 대회(IPC) net‑benefit 트랙의 사례에 적용해 기존 소프트 목표를 명시한 모델보다 비용 기반 플래너가 더 좋은 성능을 보임을 실험적으로 입증한다.

상세 분석

본 논문은 플래닝 분야에서 오래된 가정, 즉 소프트 목표가 모델의 표현력을 실제로 확장한다는 전제를 재검토한다. 저자는 먼저 전통적인 비용 기반 플래닝 모델을 정의하고, 여기서 목표는 반드시 달성해야 하는 하드 목표와 달성 여부에 따라 유틸리티가 변동하는 소프트 목표로 구분한다. 핵심 아이디어는 각 소프트 목표를 새로운 플래닝 변수와 연관된 “달성” 액션으로 변환하고, 해당 액션에 소프트 목표의 유틸리티를 비용의 부호가 반대인 형태(즉, 보상)로 부여하는 것이다. 이렇게 하면 원래 문제의 유틸리티 최적화는 단순히 전체 비용을 최소화하는 문제와 동치가 된다.

컴파일 과정은 다음과 같다. (1) 각 소프트 목표 g에 대해 새로운 플래시 변수 ĝ를 도입하고, ĝ가 true가 되면 원래 목표 g가 달성된 것으로 간주한다. (2) 기존 액션이 g를 달성하면 ĝ를 true로 만드는 “보조” 액션을 삽입한다. (3) 보조 액션의 비용을 –u(g) (u는 g의 유틸리티) 로 설정한다. (4) 최종 목표 집합에 모든 ĝ를 포함시켜야 하므로, 원래 소프트 목표를 반드시 “달성”하도록 강제한다. 이때 비용이 음수가 허용되지 않는 플래너에서는 가상의 비용을 0에 가깝게 조정하고, 보상은 목표 달성 시 추가 비용 감소 형태로 구현한다.

이러한 변환은 두 가지 중요한 특성을 유지한다. 첫째, 플래닝 문제의 해 공간이 동일하게 보존된다; 즉, 원래 문제의 최적 플랜은 변환된 문제에서도 동일한 순서와 비용(보상 포함)으로 재현된다. 둘째, 변환 후에는 기존 비용 기반 플래너와 휴리스틱이 그대로 적용 가능하므로, 별도의 소프트 목표 전용 알고리즘이 필요 없어진다.

실험에서는 IPC 2014·2018 net‑benefit 트랙의 베이스라인 문제들을 변환하여, 비용 기반 최적 플래너(LPG‑TD, FastDownward)와 satisficing 플래너가 원래 소프트 목표를 명시한 플래너들에 비해 해결률, 실행 시간, 그리고 최종 유틸리티 측면에서 우수함을 보였다. 특히 최적 플래너는 변환된 문제에서 더 정확한 비용 하한을 계산할 수 있었으며, satisficing 플래너는 휴리스틱이 비용 중심으로 설계돼 있어 탐색 효율이 크게 향상되었다.

마지막으로 논문은 페널티(음의 선호)도 동일한 방식으로 컴파일할 수 있음을 제시한다. 페널티 목표에 대해 비용을 +p(페널티 값) 로 설정하고, 목표 달성을 방지하도록 보조 액션을 설계하면, 원래의 “피해야 할” 조건이 비용 최소화 문제로 전환된다. 이는 소프트 목표와 페널티 모두가 비용 기반 플래닝의 범위 안에 포함될 수 있음을 의미한다.

전체적으로 이 연구는 소프트 목표와 페널티가 플래닝 모델의 본질적 복잡성을 증가시키지 않으며, 기존 비용 기반 플래너와 휴리스틱을 그대로 활용할 수 있는 실용적 방법을 제공한다는 점에서 이론적·실용적 기여가 크다.