불확실성 하에서 매크로 행동을 이용한 효율적 계획

초록

본 논문은 부분관측 마코프 결정 과정(POMDP)에서 다단계 예측이 필요한 경우를 위해, 원시 행동들의 연속을 매크로‑액션으로 묶어 기대 보상을 빠르게 평가할 수 있는 온라인 전방 탐색 알고리즘인 Posterior Belief Distribution(PBD)를 제안한다. 관측 시퀀스에 대한 사후 믿음 분포를 닫힌 형태로 계산함으로써, 대규모 상태·관측 공간에서도 실시간으로 다수의 매크로‑액션을 비교·선택할 수 있다. 과학 탐사와 목표 모니터링 시뮬레이션, 실제 헬리콥터 실험을 통해 높은 성능과 실용성을 입증한다.

상세 분석

PBD 알고리즘은 POMDP의 핵심 난제인 “믿음(belief) 업데이트의 복잡성”을 매크로‑액션 단위로 집계함으로써 완화한다. 기존 방법들은 각 단계마다 관측 가능한 모든 경우를 전부 탐색해야 하는 반면, PBD는 특정 행동 시퀀스 후에 도달할 수 있는 믿음 분포를 사후 확률분포(posterior belief distribution) 형태로 직접 계산한다. 이를 위해 저자들은 선형‑가우시안 시스템 가정 하에, 관측 모델과 전이 모델이 모두 정규분포를 따를 때, 관측 시퀀스 집합에 대한 합성곱 연산을 이용해 닫힌 형태의 평균·공분산 업데이트식을 유도한다. 결과적으로 매크로‑액션 하나당 기대 보상은 해당 액션에 포함된 원시 행동들의 보상 함수와 사후 믿음의 평균·분산을 이용해 빠르게 추정할 수 있다.

알고리즘 흐름은 크게 네 단계로 구성된다. 첫째, 현재 믿음에서 가능한 매크로‑액션 후보들을 생성한다(예: 일정 시간 동안 동일 행동 유지). 둘째, 각 후보에 대해 사후 믿음 분포를 계산한다. 셋째, 사후 분포를 이용해 기대 누적 보상을 평가한다. 넷째, 가장 높은 기대 보상을 가진 매크로‑액션을 실행하고, 실제 관측이 들어오면 믿음을 업데이트한다. 이 과정은 온라인으로 반복되며, 매크로‑액션의 길이를 조절함으로써 탐색 깊이와 계산 비용 사이의 트레이드오프를 유연하게 제어한다.

이론적 분석에서는 PBD가 동일한 탐색 깊이를 갖는 전통적인 전방 탐색보다 연산 복잡도가 O(|A|·L·d)에서 O(|M|·d)로 감소함을 보인다. 여기서 |A|는 원시 행동 수, |M|은 매크로‑액션 수, L은 매크로‑액션 길이, d는 믿음 차원이다. 또한, 사후 믿음 분포의 근사 정확도에 대한 바운드가 제시되어, 매크로‑액션 길이가 너무 길어질 경우 근사 오차가 누적될 수 있음을 경고한다.

실험 결과는 두 가지 대규모 시뮬레이션 도메인에서 PBD가 기존 방법들(예: POMCP, DESPOT)보다 동일한 시간 제한 하에 더 높은 평균 보상을 달성함을 보여준다. 특히 과학 탐사 도메인에서는 수천 개의 상태와 관측을 가진 환경에서도 실시간 의사결정이 가능했으며, 목표 모니터링 도메인에서는 목표를 지속적으로 추적하는 데 필요한 다단계 계획을 효과적으로 수행했다. 마지막으로 실제 헬리콥터 실험에서는 목표 물체를 비행 중에 추적하면서도 안전하게 비행 경로를 유지하는 데 성공했으며, 이는 PBD가 이론적 효율성을 넘어 실제 로봇 시스템에 적용 가능함을 입증한다.

전체적으로 PBD는 매크로‑액션을 통한 믿음 분포의 사후 계산이라는 새로운 관점을 제시함으로써, 대규모 부분관측 환경에서 다단계 예측이 필수적인 문제에 실용적인 해결책을 제공한다. 다만, 선형‑가우시안 가정에 의존한다는 점과 매크로‑액션 설계가 도메인에 따라 달라질 수 있다는 제한점이 남아 있어, 비선형·비가우시안 환경에 대한 확장 연구가 필요하다.