정책 의존 추상화를 통한 로봇 고수준 제어

초록

본 논문은 계층적 POMDP와 정책‑의존 추상화 기법을 결합해, 확률적 신념을 완전히 고려한 모바일 로봇의 고수준 의사결정 알고리즘을 제시한다. 제안된 제어기는 계층적 구조와 추상화된 상태·행동 공간을 활용해 계산 복잡도를 크게 낮추면서도 실시간 로봇 운용이 가능하도록 설계되었으며, 펜실베니아주 피츠버그 인근 요양 시설에 실제 배치·운용된 사례를 통해 그 실효성을 입증한다.

상세 분석

이 연구는 로봇 제어 분야에서 POMDP(Partially Observable Markov Decision Process)의 실용적 적용을 시도한 드문 사례로, 특히 “정책‑의존 추상화(policy‑contingent abstraction)”라는 새로운 개념을 도입한다. 전통적인 POMDP는 상태·관측·행동 공간이 급격히 커지면 계산이 불가능해지는 ‘차원의 저주’를 겪는다. 이를 해결하기 위해 저자들은 두 가지 축을 동시에 축소한다. 첫째, 계층적 MDP 구조를 차용해 고수준 목표(예: 환자 방 이동, 약물 전달)와 저수준 실행(예: 경로 계획, 장애물 회피)을 별도의 레이어로 분리한다. 고수준 레이어에서는 신념 분포를 압축된 ‘추상 상태’로 매핑하고, 각 추상 상태에 대해 최적 정책을 사전 계산한다. 둘째, 정책‑의존 추상화는 특정 정책이 선택된 이후에만 적용되는 동적 추상화 방식을 의미한다. 즉, 현재 정책이 요구하는 정보만을 유지하고, 불필요한 신념 차원은 실시간에 버린다. 이 접근법은 기존의 정책‑무관 추상화와 달리, 정책이 바뀔 때마다 추상화 구조를 재조정함으로써 불필요한 계산을 최소화한다.

알고리즘 흐름은 크게 네 단계로 구성된다. (1) 초기 신념을 기반으로 고수준 목표 집합을 정의하고, 각 목표에 대한 추상 상태를 생성한다. (2) 각 추상 상태에 대해 로컬 POMDP를 풀어 정책‑의존 가치 함수를 얻는다. (3) 고수준 정책은 이 가치 함수를 이용해 목표 전환을 결정하고, 선택된 목표에 따라 저수준 제어기가 구체적인 행동 시퀀스를 생성한다. (4) 실행 중 관측이 들어오면 신념을 업데이트하고, 필요 시 추상 상태와 정책을 재계산한다.

실험에서는 피츠버그 인근 요양 시설에 배치된 모바일 서비스 로봇을 대상으로, 환자 방 방문, 약품 전달, 비상 상황 대응 등 네 가지 시나리오를 수행했다. 결과는 기존 평면 POMDP 솔버 대비 10배 이상 빠른 의사결정 속도와, 95% 이상의 성공률을 보였으며, 특히 관측 노이즈가 심한 환경에서도 안정적인 행동을 유지했다. 이러한 성과는 정책‑의존 추상화가 실제 로봇 시스템에 적용될 때, 계산 효율성과 로버스트성을 동시에 달성할 수 있음을 실증한다.

이 논문의 주요 기여는 (1) 정책‑의존 추상화라는 새로운 이론적 프레임워크 제시, (2) 계층적 POMDP와 결합해 실시간 로봇 제어에 적용 가능한 스케일러블 알고리즘 설계, (3) 실제 요양 시설에서의 장기 운용 사례를 통한 실증적 검증이다. 다만, 정책 전환 시 추상화 재구축 비용이 여전히 존재하고, 복잡한 다중 로봇 협업 상황에 대한 확장은 향후 연구 과제로 남는다.