일차 논리 MDP를 위한 귀납적 정책 선택

일차 논리 MDP를 위한 귀납적 정책 선택

초록

본 논문은 객체 수가 증가해도 확장 가능한 1차 논리(MDP) 표현을 이용해 대규모 마르코프 결정 과정을 위한 정책을 귀납적으로 학습하는 방법을 제안한다. 작은 인스턴스를 PGraphplan으로 해결해 만든 학습 데이터를 기반으로, 세금학적 개념 언어와 결정 리스트 앙상블을 사용해 일반화 가능한 정책을 자동 생성한다. 실험 결과, 기존 방법이 다루기 어려운 복잡한 확률적 도메인에서도 높은 성능을 보였다.

상세 분석

이 논문은 전통적인 동적 프로그래밍 기반 MDP 해결법이 객체 수가 가변적인 관계형 도메인에서는 비현실적이라는 점을 지적한다. 평면(propositional) 혹은 1차 논리 표현을 그대로 사용하면 상태 공간이 급격히 폭발하고, 기존의 1차 논리 DP 기법은 제한된 도메인에만 적용 가능하거나 계산 비용이 과다하다. 저자들은 이러한 한계를 극복하기 위해 “귀납적 정책 선택”이라는 프레임워크를 도입한다. 핵심 아이디어는 작은 규모의 문제를 정확히 풀어(여기서는 PGraphplan을 이용) 그 결과를 학습 데이터로 삼아, 일반화 가능한 정책을 추출하는 것이다. 정책 표현으로는 세금학적(conceptual) 언어를 기반으로 한 결정 리스트(decision list)를 사용한다. 세금학적 언어는 객체와 관계를 계층적으로 정의할 수 있어, “위치가 A이고, 적이 B에 인접한 경우”와 같은 복합 조건을 간결히 기술한다. 결정 리스트는 조건-행동 쌍을 순차적으로 나열한 형태이며, 각 조건이 만족될 때 해당 행동을 선택한다. 이 구조는 해석 가능성이 높고, 새로운 객체가 추가되더라도 기존 조건이 그대로 적용될 수 있어 스케일러빌리티를 보장한다.

학습 과정은 두 단계로 나뉜다. 첫째, 작은 인스턴스들을 PGraphplan으로 해결해 최적 정책을 얻고, 상태-행동 쌍을 수집한다. 둘째, 수집된 데이터에 대해 앙상블 학습을 수행한다. 여기서 앙상블은 여러 결정 리스트를 독립적으로 학습시킨 뒤, 투표 방식으로 최종 행동을 결정한다. 앙상블을 도입함으로써 단일 결정 리스트가 갖는 과적합 위험을 완화하고, 다양한 상황에 대한 견고성을 높인다. 또한, 학습 알고리즘은 세금학적 개념을 자동으로 생성·선택하도록 설계돼, 인간이 직접 도메인 지식을 제공할 필요를 최소화한다.

실험에서는 블록스 월드, 로봇 내비게이션, 그리고 전통적인 관계형 퍼즐 등 여러 확률적 1차 논리 MDP를 대상으로 평가했다. 특히 객체 수가 학습 단계보다 크게 늘어난 경우에도, 학습된 정책은 높은 성공률을 유지했으며, 전통적인 DP 기반 방법이나 기존의 1차 논리 정책 학습기보다 월등히 좋은 성능을 보였다. 이는 정책이 “객체 독립적인” 규칙으로 추출되었기 때문에, 새로운 객체가 추가돼도 기존 규칙이 그대로 적용될 수 있음을 의미한다. 논문은 또한 이 접근법이 관계형 강화학습(RRL) 문제에 자연스럽게 확장될 수 있음을 논의한다. RRL에서는 환경 모델이 없으므로, 직접적인 정책 학습이 필요하고, 여기서 제안된 귀납적 방법은 샘플 효율성과 일반화 측면에서 유리하다.

핵심 기여는 다음과 같다. (1) 작은 문제 해결을 통한 데이터 기반 정책 학습 프레임워크 제시, (2) 세금학적 개념 언어와 결정 리스트를 결합한 해석 가능하고 확장 가능한 정책 표현, (3) 앙상블 학습을 통한 견고성 강화, (4) 다양한 확률적 1차 논리 도메인에서 실험적으로 입증된 성능. 이 연구는 관계형 도메인에서 정책을 자동 생성하는 새로운 패러다임을 제시하며, 향후 복잡한 실세계 시스템(예: 로봇 협업, 물류 최적화)에도 적용 가능성을 시사한다.