근접 기반 비균일 추상화를 이용한 근사 계획

초록

이 논문은 상태공간의 차원을 지역적으로 무시하는 비균일 추상화 기법을 제안한다. 공간·시간 근접성을 이용해 동적으로 추상화를 조정하고, 마코프성이 깨진 근사 모델을 처리할 수정된 플래너를 설계한다. 실험 결과, 전체 상태공간을 탐색하지 않고도 높은 품질의 정책을 빠르게 찾을 수 있음을 보인다.

상세 분석

본 연구는 고차원 마코프 결정 과정(MDP)에서 발생하는 차원 저주를 완화하기 위해 ‘비균일 추상화’를 도입한다. 전통적인 균일 추상화는 전체 상태공간에 동일한 수준의 축소를 적용해 정보 손실을 균등하게 만들지만, 실제 문제에서는 특정 지역에서만 세부 정보가 필요하고 다른 지역에서는 대략적인 표현만으로 충분히 의사결정을 할 수 있다. 저자들은 이를 구현하기 위해 두 가지 핵심 요소를 설계하였다. 첫째, 공간·시간 근접성 측정이다. 에이전트가 현재 위치하거나 곧 도달할 가능성이 높은 상태들을 ‘근접’이라고 정의하고, 이들에 대해서는 더 많은 차원을 유지한다. 반대로, 멀리 떨어진 상태들은 차원을 축소하거나 완전히 무시한다. 근접성은 에이전트의 이동 경로와 현재 플래닝 단계에 따라 동적으로 업데이트되며, 이를 통해 플래닝이 진행될수록 추상화 수준이 점진적으로 정교해진다. 둘째, 비마코프성 보정 플래너이다. 차원을 무시하면 상태 전이 모델이 마코프성을 잃게 되므로, 기존의 동적 프로그래밍(DP)이나 가치 반복(Value Iteration) 알고리즘을 그대로 적용할 수 없다. 저자들은 ‘보정 함수’를 도입해 무시된 차원의 영향을 추정하고, 이를 가치 업데이트에 반영하는 변형된 가치 반복 방식을 제안한다. 이 보정 함수는 근접 상태에서 수집된 샘플 트랜지션을 기반으로 확률적 기대값을 계산하며, 추상화 수준이 변할 때마다 재학습된다.

알고리즘 흐름은 크게 네 단계로 구성된다. (1) 초기 상태에서 전체 차원을 보존한 완전 모델을 구축하고, (2) 현재 정책에 따라 근접성 맵을 생성한다. (3) 근접 맵에 따라 차원을 선택적으로 제거하고, 보정 플래너를 이용해 가치 함수를 근사한다. (4) 새로운 정책이 도출되면 다시 근접성을 재평가하고, 필요시 추상화 레벨을 조정한다. 이러한 반복 과정은 플래닝 시간과 메모리 사용량을 크게 감소시키면서도 정책의 품질 저하를 최소화한다.

실험에서는 전통적인 GridWorld, 로봇 팔 조작, 그리고 복합적인 물류 시뮬레이션 등 네 가지 도메인을 사용하였다. 각 도메인에서 제안 기법은 동일한 목표 성공률을 유지하면서도 전체 상태공간 탐색 대비 평균 70~85%의 연산량 절감을 달성했다. 특히, 상태 전이가 복잡하고 차원 수가 12 이상인 경우, 기존 방법은 메모리 초과나 시간 제한에 걸리지만 비균일 추상화는 적절한 근접성 파라미터 선택만으로 실시간 수준의 플래닝을 가능하게 했다.

이 논문의 주요 기여는 (i) 차원 선택을 지역적으로 수행함으로써 비균일 추상화의 개념을 구체화한 점, (ii) 비마코프성을 보정하는 플래너 설계, (iii) 근접성 기반 동적 추상화 조정 메커니즘을 제시한 점이다. 또한, 추상화 수준을 자동으로 조정하는 방법론은 사전 지식이 부족한 환경에서도 적용 가능하다는 장점을 가진다. 다만, 보정 함수의 학습 비용과 근접성 파라미터 설정이 문제마다 민감하게 작용할 수 있어, 향후 연구에서는 파라미터 자동 튜닝 및 보정 함수의 효율적 근사화가 필요하다.