소음이 있는 확률 관계 규칙을 활용한 효율적 계획
초록
소음이 포함된 확률 관계 규칙(NPRR)을 세계 모델로 사용해, 규칙의 압축성과 일반화 능력을 활용한 두 가지 계획 방법을 제안한다. 첫 번째는 UCT 기반 탐색 트리에 규칙을 직접 적용하는 방식이고, 두 번째는 규칙을 구조화된 동적 베이지안 네트워크(DBN)로 변환해 근사 추론으로 행동 효과를 예측한다. 복잡한 3D 로봇 조작 시뮬레이션과 확률 계획 대회 도메인에서 기존 방법이 실패하던 문제들을 성공적으로 해결한다.
상세 분석
본 논문은 복잡한 관계형 도메인에서 세계 모델링을 위한 “소음이 있는 확률 관계 규칙”(Noisy Probabilistic Relational Rules, NPRR)을 중심으로 계획 알고리즘을 설계한다. NPRR은 전통적인 확률적 STRIPS와 달리 전이 효과를 확률 분포와 함께 명시하고, 각 효과에 독립적인 소음 변수(noise atom)를 도입해 불확실성을 정량화한다. 이러한 표현은 (1) 동일한 관계 구조를 공유하는 다수의 상태 인스턴스에 대해 파라미터를 재사용함으로써 모델 크기를 크게 줄이고, (2) 규칙 자체가 인간에게 직관적으로 이해 가능하므로 학습 후 검증 및 수정이 용이하다는 장점을 가진다.
첫 번째 계획 접근법은 UCT(Upper Confidence Bounds applied to Trees)와 NPRR을 결합한다. 탐색 트리의 각 노드는 현재 세계 상태의 구체화된 인스턴스이며, 자식 노드는 규칙 적용 결과로 생성된 가능한 후속 상태들을 확률적으로 샘플링한다. 규칙의 전제(precondition)와 효과(effect)를 직접 사용해 시뮬레이션 비용을 최소화하고, 소음 변수는 샘플링을 통해 자연스럽게 반영된다. 또한, UCT의 탐색·활용 균형 파라미터를 통해 희소한 성공 경로를 효율적으로 탐색한다. 이 방법은 규칙이 제공하는 압축된 전이 모델을 그대로 활용하므로, 대규모 상태 공간에서도 메모리와 연산량을 크게 절감한다.
두 번째 접근법은 NPRR을 구조화된 동적 베이지안 네트워크(DBN)로 변환한다. 규칙의 전제와 효과를 각각 DBN의 조건부 확률 테이블(CPT)로 매핑하고, 소음 변수는 별도의 숨은 노드로 삽입한다. 이렇게 구성된 DBN은 연속적인 행동 시퀀스에 대해 베이지안 추론을 수행함으로써 현재 상태에 대한 믿음(belief) 분포를 갱신한다. 논문에서는 파티클 필터와 변분 추론을 혼합한 근사 방법을 도입해, 고차원 연속 상태와 이산 관계를 동시에 다룰 수 있게 했다. 이 방식은 특히 롤아웃 정책이 필요 없는 경우, 즉 행동 선택 자체를 믿음 기반 최적화 문제로 전환하고자 할 때 유리하다.
실험은 두 가지 주요 도메인에서 수행되었다. 첫 번째는 물리 엔진을 이용한 3D 로봇 조작 시뮬레이션으로, 관절이 있는 매니퓰레이터가 물체를 잡고 이동시키는 과업이다. 여기서는 물체의 마찰, 충돌 소음, 관절 백래시 등 복합적인 불확실성이 존재한다. 두 번째는 Probabilistic Planning Competition(PPC)에서 제공된 표준 베이지안 플래닝 문제들이다. 두 접근법 모두 기존의 PDDL 기반 플래너와 Monte‑Carlo Tree Search(MCTS) 변형들이 해결하지 못한 복잡한 인스턴스를 성공적으로 해결했으며, 특히 DBN 기반 방법은 긴 행동 시퀀스에 대해 높은 성공률을 보였다.
핵심 인사이트는 다음과 같다. (1) NPRR은 관계형 세계를 압축적으로 표현하면서도 학습 가능성을 유지한다. (2) 규칙을 직접 활용한 UCT는 탐색 효율성을 극대화하지만, 롤아웃 정책 설계에 민감하다. (3) DBN 변환은 불확실성을 전역적으로 관리하고, 믿음 업데이트를 통해 장기 계획에 강점을 보인다. 마지막으로, 두 방법은 상호 보완적이며, 도메인 특성에 따라 적절히 선택하거나 혼합해 사용할 수 있다.