유한 마코프 의사결정 과정의 상태 유사성 측정 지표

초록

본 논문은 유한 마코프 의사결정 과정(MDP)에서 상태 간 유사성을 정량화하는 새로운 메트릭을 제안한다. 비동형(bisimulation) 개념을 확장하여, 할인된 무한 horizon 강화학습 문제에서 최적 가치 함수와 메트릭 거리 사이의 상한을 제공한다. 제시된 메트릭은 상태 집합을 효과적으로 집계(aggregation)하거나 메모리 기반 근사기법의 구조를 개선하는 데 활용될 수 있다.

상세 분석

논문은 먼저 기존 비동형(bisimulation) 관계가 “동일한 행동 선택 시 전이 확률과 보상이 완전히 일치하는 상태 쌍”을 정의한다는 점을 상기한다. 그러나 강화학습에서는 상태가 완전히 동일하지 않더라도 비슷한 행동 가치가 보장될 경우 이를 하나의 그룹으로 묶고 싶다. 이를 위해 저자들은 비동형을 거리화(metric)하는 접근을 채택한다. 구체적으로, 상태 집합 S에 대해 거리 함수 d: S×S→ℝ₊를 정의하고, 이 거리 함수가 다음 두 조건을 만족하도록 설계한다. 첫째, 보상 차이 |r(s,a)−r(s′,a)|가 d(s,s′)의 상한이 된다. 둘째, 전이 확률 분포 P(·|s,a)와 P(·|s′,a) 사이의 Kantorovich‑Wasserstein 거리 역시 d(s,s′)에 의해 제한된다. 이러한 정의는 Bellman 연산자 B에 대해 d가 𝛾‑수축(contraction)임을 보이는 핵심 정리와 연결된다. 즉, d는 고정점 방정식 d = F(d)의 유일한 해이며, 여기서 F는 보상 차이와 전이 확률의 Wasserstein 거리를 결합한 연산자이다.

이론적 결과로, 저자들은 메트릭 거리와 최적 가치 함수 V* 사이에 다음과 같은 불평등을 증명한다. |V*(s)−V*(s′)| ≤ d(s,s′)/(1−𝛾). 이는 메트릭이 작을수록 두 상태의 최적 가치가 근접함을 보장한다는 의미다. 따라서 메트릭을 기준으로 임계값 ε보다 작은 상태들을 하나의 클러스터로 합치면, 합병 후에도 최적 가치의 근사 오차가 ε/(1−𝛾) 이하로 제한된다.

알고리즘적 측면에서, 메트릭을 계산하기 위해 값 반복(value iteration)과 유사한 반복 과정을 제안한다. 초기 거리 행렬을 0으로 두고, 매 반복마다 보상 차이와 전이 확률의 Wasserstein 거리를 업데이트한다. 수렴 속도는 할인 계수 𝛾에 의해 결정되며, 유한 상태 공간에서는 다항 시간 안에 ε‑정밀도 해를 얻을 수 있다. 또한, 메트릭을 이용한 상태 집계는 기존의 표준 비동형 집계보다 더 유연하며, 연속적인 거리 정보를 제공함으로써 근접 이웃 기반 근사기법(k‑NN, 라디얼 베이시스 함수 등)의 입력 구조를 자연스럽게 정렬한다.

실험 섹션에서는 작은 그리드 월드와 더 큰 Atari‑like 환경에서 메트릭 기반 집계를 적용한 결과를 제시한다. 메트릭을 사용한 상태 압축은 동일한 메모리 제한 하에서 전통적인 비동형 집계보다 평균 보상이 5~12 % 향상되었으며, 학습 속도 역시 크게 가속화되었다. 특히, 메모리 기반 근사기법에 메트릭 거리 기반 가중치를 부여했을 때, 샘플 효율성이 눈에 띄게 개선되는 것이 관찰되었다.

결론적으로, 이 논문은 비동형 개념을 거리화함으로써 강화학습에서 상태 유사성을 정량적으로 평가하고, 이를 통해 효율적인 상태 집계와 함수 근사를 가능하게 하는 이론적·실용적 프레임워크를 제공한다. 향후 연구에서는 연속 상태 공간으로의 확장, 비정책적(offline) 데이터에 대한 메트릭 추정, 그리고 메트릭을 직접 정책 최적화에 통합하는 방법 등이 제시된다.