연속 시간·자원 불확실성 하의 로버 계획: AI의 새로운 도전

초록

이 논문은 화성 로버 임무에서 나타나는 연속적인 시간·자원 불확실성을 고려한 계획 문제를 제시한다. 기존의 불확실성 플래닝 기법은 이산적 결과와 단순한 시간 모델에 의존해 규모가 큰 실제 문제에 적용하기 어렵다. 저자는 로버 작업의 동시성, 가변 지속시간, 전력·연료와 같은 연속 자원 소비를 동시에 다루는 새로운 모델링 필요성을 강조하고, 작은 예시를 통해 현재 방법들의 한계를 실증한다.

상세 분석

본 논문은 AI 계획 연구에서 장기간 간과되어 온 ‘연속 시간·연속 자원 불확실성(continuous time and resource uncertainty)’이라는 핵심 차원을 조명한다. 전통적인 결정론적 플래닝은 행동이 고정된 지속시간을 갖고, 자원 소모가 정해진 양으로 모델링되는 경우에만 효율적으로 작동한다. 반면, 화성 로버와 같은 실제 시스템에서는 태양광 강도, 토양 저항, 온도 변화 등 환경 요인에 의해 행동의 실행 시간과 전력·연료 소모가 확률적 연속 분포를 따른다. 이러한 연속적 불확실성은 두 가지 중요한 영향을 미친다. 첫째, 행동 간의 동시성(concurrency)을 허용해야 한다. 예를 들어, 로버는 태양 전지판을 향해 회전하면서 동시에 과학 장비를 준비할 수 있다. 둘째, 자원 제약이 시간에 따라 누적되므로, 전통적인 ‘전후 관계’만으로는 충분히 표현되지 않는다.

논문은 기존 연구를 세 가지 관점에서 비판한다. (1) 이산적 결과에만 초점을 맞춘 MDP/MDP 기반 방법은 연속적인 비용 함수와 확률 밀도 함수를 직접 다루지 못한다. (2) 시간 모델을 ‘단일 단계’ 혹은 ‘고정 시간 슬라이스’로 단순화하는 접근은 행동 간의 겹침과 가변 지속시간을 무시한다. (3) 상태·행동 공간을 완전 탐색하거나 샘플링 기반으로 해결하려는 시도는 수백 개의 행동을 포함하는 실제 로버 일일 계획에 대해 계산적으로 비현실적이다.

저자는 이러한 한계를 극복하기 위한 연구 방향을 제시한다. 첫째, 행동의 지속시간과 자원 소모를 확률적 연속 함수로 모델링하고, 이를 ‘시간-자원 프로파일’이라는 형태로 표현한다. 둘째, 동시 실행 가능한 행동 집합을 정의하고, 이들 사이의 상호작용을 ‘제한된 병렬성(parallelism)’ 모델로 추상화한다. 셋째, 전통적인 결정론적 플래닝과 확률적 의사결정 과정을 결합한 ‘하이브리드 플래닝’ 프레임워크를 제안한다. 예를 들어, 고수준 목표(예: 특정 지점에서 샘플 채취)까지는 결정론적 경로 탐색으로 빠르게 후보 일정을 생성하고, 그 후에 연속 자원 불확실성을 고려한 ‘시뮬레이션 기반 평가’ 혹은 ‘샘플링 기반 정책 개선’ 단계에서 일정의 신뢰성을 검증한다.

작은 예시(약 10개의 행동)에서는 이러한 접근법이 기존 MDP 솔버보다 훨씬 높은 성공 확률과 자원 효율성을 보였으며, 특히 전력 소모가 임계값에 근접할 때 동시성 활용이 계획 성공률을 크게 향상시켰다. 그러나 저자는 아직 스케일업에 대한 구체적 알고리즘이 부족함을 인정하고, 근사적 정책 검색, 강화학습 기반 가치 함수 근사, 그리고 제약 만족 문제(CSP)와의 통합 연구가 필요하다고 강조한다.

결론적으로, 연속 시간·연속 자원 불확실성을 명시적으로 다루는 새로운 계획 모델과 알고리즘은 AI와 로보틱스 분야 모두에 중요한 연구 과제로 부상한다. 이는 전통적인 이산형 플래닝과 순수 강화학습 사이의 ‘중간 지대’를 탐색하는 작업이며, 실제 우주 탐사와 같은 고위험·고비용 환경에서 실용적인 의사결정 지원 시스템을 구축하는 데 핵심적인 역할을 할 것이다.