부분 관측 결정론적 행동 모델 학습
초록
이 논문은 부분적으로 관측되는 환경에서 행동의 전후조건과 효과를 정확히 추정하는 다항식 시간 알고리즘을 제시한다. 행동이 논리적으로 단순한 결정론적 구조를 갖고, 모든 상태 변수들이 일정 빈도로 관측될 때, 제안된 방법은 관측 시퀀스로부터 가능한 행동 모델을 모두 혹은 하나만 찾아낸다. 기존 HMM·RL 접근법이 지수적 복잡도와 근사에 의존하는 반면, 본 방법은 STRIPS와 같은 전통적 플래닝 모델에 대해 정확하고 효율적이다.
상세 분석
본 연구는 “동적 부분 관측 도메인”이라는 매우 까다로운 설정을 다룬다. 여기서는 에이전트가 행동 모델을 사전에 알지 못하고, 매 시점마다 전체 상태 변수 중 일부만 관측한다. 기존 플래닝 이론은 완전 관측과 독립성 가정에 크게 의존해 효율성을 확보했지만, 부분 관측에서는 변수 간 상관관계가 급격히 증가해 전통적인 분해 기법이 무용지물이 된다. 논문은 이러한 난관을 두 가지 핵심 가정으로 극복한다. 첫째, 행동이 결정론적이며 논리적으로 단순한 형태(예: STRIPS 전후조건, 효과)라는 점이다. 둘째, 모든 상태 변수들이 어느 정도의 빈도로 관측된다는 전제다. 이 두 조건 하에 저자들은 관측 시퀀스를 이용해 가능한 행동 모델 집합을 정확히(exact) 구분할 수 있는 알고리즘을 설계한다.
알고리즘의 핵심 아이디어는 “가능성 유지(possibility propagation)”와 “제약 축소(constraint tightening)”이다. 초기에는 모든 행동에 대해 전후조건과 효과가 무제한으로 가정된다. 각 관측 단계에서 실제 관측값과 일치하지 않는 가설은 즉시 제거되고, 남은 가설들 사이에서 논리적 일관성을 강제하는 제약이 추가된다. 이 과정은 시간 단계와 상태 변수 수에 대해 다항식 복잡도를 유지한다. 특히, STRIPS와 같은 전통적 액션 클래스에 대해서는 전후조건이 리터럴 집합으로 표현되므로, 각 단계에서의 제약은 단순한 집합 연산으로 구현 가능하다.
또한, 저자들은 두 가지 출력 모드를 제공한다. 1) 전체 모델 열거 모드에서는 관측 데이터와 완전히 일치하는 모든 가능한 행동 모델을 나열한다. 이는 모델 불확실성을 정량화하거나 인간 전문가가 검증할 때 유용하다. 2) 대표 모델 선택 모드에서는 임의의 하나의 일관된 모델을 빠르게 반환한다. 이때도 정확성을 보장하므로, 선택된 모델이 실제 환경을 설명하지 못할 위험이 없다.
이론적 분석에서는 다음과 같은 결과를 증명한다. (i) 정확성: 관측 시퀀스와 일치하지 않는 모델은 절대 반환되지 않는다. (ii) 완전성: 관측과 일치하는 모든 모델이 반환된다(전체 열거 모드). (iii) 다항식 시간: 알고리즘의 시간 복잡도는 O(T·|F|·C) 형태이며, 여기서 T는 관측 길이, |F|는 상태 변수 수, C는 액션 클래스에 따라 상수 수준이다.
실험 부분에서는 합성 도메인과 실제 어드벤처 게임 환경을 대상으로 알고리즘을 적용했다. 합성 실험에서는 액션 수와 변수 수를 크게 늘려도 실행 시간이 선형에 가깝게 증가했으며, 기존 HMM 기반 학습기가 겪는 지수적 폭증을 회피했다. 어드벤처 게임에서는 관측이 매우 희소했음에도 불구하고, 게임 엔진이 제공한 실제 행동 모델을 정확히 복원했다. 이러한 결과는 제안된 방법이 실용적인 로봇 탐사, 자동화된 게임 플레이, 그리고 진단 시스템 등에 바로 적용 가능함을 시사한다.
마지막으로, 논문은 현재의 결정론적 가정을 확장해 확률적 혹은 부분 관측 강화학습 상황에 적용할 가능성을 논의한다. 행동 효과를 확률 분포로 모델링하고, 관측 빈도를 조절하는 메커니즘을 추가하면, 현재의 정확한 학습 프레임워크를 근사적인 확률적 학습으로 자연스럽게 전이시킬 수 있다. 이는 향후 연구에서 중요한 방향으로 제시된다.