다중스케일 마르코프 의사결정 문제 압축 해결 전이학습

초록

본 논문은 마르코프 의사결정 과정(MDP)을 다중스케일로 압축·동질화하는 알고리즘을 제시한다. 자동으로 계층적 서브문제를 생성하고, 각 레벨의 압축된 MDP를 독립적인 결정론적 MDP로 변환해 기존 솔버로 해결한다. 이렇게 얻은 계층 구조는 서브태스크 간 결합을 해제해 수렴 속도를 크게 향상시키며, 동일하거나 유사한 서브문제의 정책·잠재 연산자를 다른 문제에 전이할 수 있는 새로운 전이 학습 기회를 제공한다. 이론적 분석과 이산·연속 상태공간 실험을 통해 압축과 전이의 효율성을 입증한다.

상세 분석

이 논문은 복잡한 순차 의사결정 문제를 다중스케일 구조로 해석하고, 이를 체계적으로 압축하는 프레임워크를 구축한다. 핵심 아이디어는 원래의 MDP를 여러 단계의 ‘코어스’(coarse) MDP로 순차적으로 동질화하는데, 각 코어스 레벨은 상태 집합을 클러스터링하고, 해당 클러스터 내에서 최적 정책을 제한함으로써 결정론적 전이와 보상 구조를 만든다. 이렇게 생성된 코어스 MDP는 원래의 확률적 전이 행렬을 평균화한 ‘잠재 연산자(potential operator)’를 이용해 전이 확률을 정의하고, 보상은 클러스터 내부 최적값의 기대값으로 근사한다.

알고리즘은 (1) 상태 공간을 그래프 기반 커뮤니티 탐지 기법으로 파티셔닝, (2) 각 파티션에 대해 로컬 정책을 구하고, (3) 파티션 간 전이를 결정론적으로 정의하는 순서로 진행된다. 중요한 점은 각 레벨의 코어스 MDP가 독립적인 결정론적 MDP가 되므로, 값 반복(value iteration)이나 정책 반복(policy iteration) 같은 기존 최적화 기법을 그대로 적용할 수 있다는 것이다. 이 과정은 재귀적으로 반복되어 다중 레벨의 계층 구조가 자동으로 형성된다.

이론적으로는 코어스 MDP가 원래 MDP와 동일한 최적값을 보장하도록 설계되었으며, 압축 비율과 클러스터 품질에 따라 수렴 속도가 지수적으로 개선될 수 있음을 증명한다. 또한, 서브태스크의 정책·잠재 연산자를 다른 문제에 재사용하는 전이 메커니즘을 제안한다. 전이는 (a) 동일한 클러스터 구조를 공유하는 경우 정책을 그대로 복사, (b) 구조는 다르지만 잠재 연산자의 스펙트럼이 유사한 경우 근사 전이를 수행한다. 이러한 전이는 특히 로봇 내비게이션이나 게임 AI와 같이 반복적으로 유사한 하위 목표를 수행하는 도메인에서 큰 이점을 제공한다.

실험에서는 격자 세계(gridworld)와 연속적인 포인트 마스킹 문제에서 압축 비율 5~~20배, 학습 시간 30% 이하로 감소함을 보였다. 특히 전이 실험에서는 기존 방법 대비 2~~3배 빠른 정책 재학습을 달성했으며, 전이된 정책의 성공률도 90% 이상 유지되었다. 전체적으로 이 논문은 MDP의 구조적 복잡성을 계층적으로 해소하고, 전이 학습을 자연스럽게 연결하는 통합 프레임워크를 제공한다는 점에서 의미가 크다.