관계형 MDP에서 1차 회귀를 활용한 정책 학습

초록

본 논문은 관계형 마르코프 결정 과정(RMDP)에서 최적 일반화 정책을 도출하기 위해, 1차 논리 회귀를 이용해 도메인 특화 가설 언어를 자동 생성하고 이를 귀납적 학습기에 제공하는 새로운 하이브리드 방법을 제안한다. 이를 통해 복잡한 심볼릭 동적 프로그래밍의 연산 부담을 줄이고, 작은 인스턴스에서 학습된 정책을 넓은 상태공간에 일반화할 수 있다.

상세 분석

이 연구는 두 가지 전통적 접근법의 장점을 결합한다. 첫 번째는 심볼릭 동적 프로그래밍(SDP)으로, 1차 논리 회귀와 공식 재작성(rewriting)을 통해 최적 가치 함수를 정확히 계산한다. 그러나 SDP는 복잡한 논리 변환과 대규모 정규화 과정 때문에 계산 비용이 급격히 증가한다. 두 번째는 귀납적 정책 학습으로, 작은 규모의 샘플 트랜지션을 이용해 가설 공간 내에서 가치 함수나 정책을 일반화한다. 귀납적 방법은 가설 언어가 충분히 풍부하면 강력하지만, 도메인에 맞는 적절한 언어를 설계하는 것이 어려워 과도한 탐색이나 부정확한 일반화가 발생한다.

논문은 이러한 문제를 해결하기 위해 “첫 번째 회귀 기반 가설 생성”이라는 절차를 도입한다. 구체적으로, 초기 상태와 목표 보상 구조를 정의한 후, 1차 회귀 연산을 반복 적용해 목표 보상에 도달하기 위해 필요한 전제 조건들의 집합을 도출한다. 이 과정에서 생성된 논리식들은 도메인 특유의 관계(예: 블록 쌓기에서 위에 올려진 블록, 로봇 이동에서 인접 위치 등)를 자동으로 포착한다. 결과적으로, 회귀 연산이 만든 식들의 집합이 바로 귀납 학습기에 투입될 가설 언어가 된다. 이 언어는 불필요한 일반 논리 연산을 배제하고, 최적 가치 함수와 직접 연관된 특징만을 포함하므로 탐색 공간이 크게 축소된다.

귀납 학습 단계에서는 기존의 ILP(Inductive Logic Programming) 혹은 관계형 강화학습 프레임워크를 그대로 활용한다. 회귀로 생성된 가설 언어를 기반으로, 작은 인스턴스에서 수집한 상태‑행동‑보상 트레이닝 데이터를 이용해 규칙 기반 정책을 학습한다. 중요한 점은, 회귀 단계가 이미 “어떤 상태가 목표에 가까운가”를 논리적으로 정의했기 때문에, 학습된 규칙은 자연스럽게 최적 가치 함수의 구조를 반영한다. 실험 결과, 이 방법은 전통적인 SDP가 요구하는 전체 상태공간 탐색 없이도 동일하거나 근접한 최적 정책을 도출했으며, 특히 복잡한 관계형 도메인(블록스 월드, 로봇 내비게이션 등)에서 학습 효율성이 크게 향상되었다.

또한, 논문은 회귀 기반 가설 생성이 도메인 독립적인 절차임을 강조한다. 회귀 연산은 논리적 정의만 있으면 언제든 적용 가능하므로, 새로운 RMDP에 대해 별도의 전문가 설계 없이도 자동으로 가설 언어를 만들 수 있다. 이는 기존 귀납적 접근이 겪던 “가설 언어 설계 비용”을 실질적으로 제거한다는 점에서 의미가 크다. 마지막으로, 복합적인 논리식이 과도하게 생성되는 경우를 방지하기 위해, 논문은 식 간 동등성 검사와 불필요한 전제 제거를 위한 간단한 정규화 규칙을 제시한다. 이러한 정제 과정은 학습기의 연산 부하를 최소화하면서도 충분한 표현력을 유지한다.