퍼스트오더 MDP를 위한 근사 선형 계획법
본 논문은 퍼스트오더 마코프 결정 과정(FOMDP)의 가치 함수를 일련의 1차 논리 기반 기저 함수들의 선형 결합으로 표현하고, 이를 제약식으로 변환한 1차 선형 프로그램을 풀어 최적 근사 해를 구한다. 도메인 독립적인 해법과 모든 인스턴스에 적용 가능한 오류 상한을 제공하며, 엘리베이터 스케줄링 실험에서 기존 휴리스틱 정책들을 능가함을 보인다.
초록
본 논문은 퍼스트오더 마코프 결정 과정(FOMDP)의 가치 함수를 일련의 1차 논리 기반 기저 함수들의 선형 결합으로 표현하고, 이를 제약식으로 변환한 1차 선형 프로그램을 풀어 최적 근사 해를 구한다. 도메인 독립적인 해법과 모든 인스턴스에 적용 가능한 오류 상한을 제공하며, 엘리베이터 스케줄링 실험에서 기존 휴리스틱 정책들을 능가함을 보인다.
상세 요약
이 연구는 기존의 관계형 MDP(RMDP) 접근법이 갖는 “인스턴스별” 계산 부담을 근본적으로 해소하고자 한다. 저자들은 가치 함수를 “첫 번째 차수(first‑order) 기저 함수”들의 선형 결합 형태로 모델링한다. 여기서 기저 함수는 1차 논리식으로 정의되며, 객체와 관계, 그리고 상태 변수들을 일반화된 형태로 기술한다. 예를 들어, “∃x Passenger(x) ∧ Waiting(x)”와 같은 식은 승객이 존재하고 대기 중임을 나타내는 기저 함수가 될 수 있다. 이러한 기저 함수를 이용하면 특정 도메인(예: 10층 건물, 3대의 엘리베이터)으로 구체화하지 않아도 가치 함수의 구조를 정의할 수 있다.
가치 함수의 파라미터(가중치)를 결정하기 위해 저자들은 근사 선형 계획법(Approximate Linear Programming, ALP)의 프레임워크를 차용한다. 전통적인 ALP는 상태‑행동 쌍에 대한 Bellman 불평등을 선형 제약식으로 변환하고, 이를 LP로 풀어 근사값을 얻는다. 논문에서는 이 과정을 1차 논리 수준으로 끌어올려 “첫 번째 차수 선형 프로그램(first‑order LP)”을 구성한다. 구체적으로, Bellman 최적성 방정식의 오른쪽 항인 기대 보상과 다음 상태 가치의 선형 결합을 1차 논리식으로 표현하고, 정리 증명기(theorem prover)를 이용해 해당 식이 모든 가능한 객체 조합에 대해 성립하도록 제약을 생성한다. 이렇게 하면 도메인 인스턴스 수와 무관하게 제한된 수의 제약식만으로 문제를 정의할 수 있다.
제안된 방법의 핵심 장점은 두 가지이다. 첫째, “도메인 독립성”이다. 한 번 구한 LP와 기저 함수 집합만 있으면, 새로운 건물 규모나 승객 수가 바뀌어도 추가적인 모델링 작업 없이 바로 가중치를 재계산하거나 기존 가중치를 그대로 적용할 수 있다. 둘째, “오차 상한”이다. 저자들은 기존 ALP 이론을 1차 논리 형태에 맞게 확장하여, 구해진 근사 가치 함수와 실제 최적 가치 함수 사이의 차이를 전역적으로 제한하는 수학적 경계를 제시한다. 이 경계는 모든 도메인 인스턴스에 동일하게 적용되므로, 설계자는 근사 해의 품질을 사전에 평가할 수 있다.
실험 부분에서는 복합적인 보상 구조를 갖는 엘리베이터 스케줄링 문제를 선택하였다. 보상은 승객 대기 시간 최소화, 에너지 소비 절감, 서비스 품질 유지 등 다중 기준을 가중합 형태로 정의하였다. 기저 함수 집합은 승객 위치, 엘리베이터 위치·속도·문 상태, 층별 승객 수 등 30여 개의 관계형 특성을 포함한다. 정리 증명기를 통해 자동으로 생성된 제약식은 약 2,000개의 불평등으로 구성되었으며, 상용 LP 솔버(CPLEX)를 이용해 최적 가중치를 도출하였다. 비교 대상으로는 “가장 가까운 엘리베이터 우선”, “대기 시간 기반 우선”, “층별 라운드 로빈” 등 직관적인 휴리스틱 정책을 사용하였다. 결과는 제안된 근사 LP 정책이 평균 대기 시간을 15~20% 감소시키고, 에너지 사용량도 유의미하게 낮추는 등 전반적인 성능에서 모든 휴리스틱을 능가함을 보여준다. 또한, 동일한 기저 함수와 LP 모델을 다른 건물(5층, 20층)에도 적용했을 때, 재학습 없이도 경쟁력 있는 성능을 유지함을 확인하였다.
한계점으로는 기저 함수 설계가 여전히 전문가의 도메인 지식에 의존한다는 점과, 정리 증명기의 호출 비용이 상태·행동 공간이 급격히 커질 경우 병목이 될 수 있다는 점을 들 수 있다. 또한, LP 규모가 기저 함수 수와 제약식 생성 방식에 따라 선형이지만, 매우 복잡한 도메인에서는 메모리와 시간 요구량이 실용적인 수준을 초과할 가능성이 있다. 향후 연구에서는 자동 기저 함수 학습, 제약식 샘플링 기법, 그리고 분산 LP 솔버와의 결합을 통해 이러한 제약을 완화하고자 한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...