다중 MDP를 위한 일반화 비동형 메트릭: 이론적 특성 및 응용
초록
본 논문은 서로 다른 마코프 결정 과정(MDP) 간 상태 유사성을 정량화하기 위한 일반화 비동형 메트릭(GBSM)을 정의하고, 대칭성·삼각 부등식·동일 공간에서의 거리 상한이라는 세 가지 기본 메트릭 성질을 엄밀히 증명한다. 이를 기반으로 정책 전이, 상태 집합화, 샘플 기반 추정에 대한 새로운 이론적 경계와 폐쇄형 샘플 복잡도식을 제시한다. 실험을 통해 GBSM이 기존 BSM보다 더 타이트한 오류 한계를 제공함을 확인하였다.
상세 분석
GBSM은 두 MDP M₁ = ⟨S₁,A₁,P₁,R₁,γ⟩와 M₂ = ⟨S₂,A₂,P₂,R₂,γ⟩ 사이의 상태 쌍 (s,s′)에 대해 Hausdorff 거리와 1‑Wasserstein 거리를 결합한 새로운 거리 함수를 정의한다. 핵심은 상태‑액션 쌍 (s,a)와 (s′,a′) 사이의 기본 차이 δ(d) 를 |R₁(s,a)−R₂(s′,a′)| + γ W₁(P₁(·|s,a),P₂(·|s′,a′);d) 로 설정하고, 이를 각 상태의 액션 집합 Xₛ, Xₛ′에 적용해 Hausdorff 메트릭 H 로 최종 GBSM을 얻는 점이다.
정리 1은 고정점 이론을 이용해 δ를 반복 적용하면 수렴하는 유일한 거리 d₁₋₂가 존재함을 보이며, 정리 2는 이 거리가 두 MDP의 최적 가치 함수 차이를 상한한다는 기존 BSM의 특성을 그대로 확장한다.
가장 중요한 기여는 세 가지 메트릭 성질이다. 정리 3은 d₁₋₂(s,s′)=d₂₋₁(s′,s) 로 대칭성을 증명하고, 정리 4는 Gluing Lemma를 활용해 서로 다른 세 MDP 사이에 d₁₋₂ ≤ d₁₋₃ + d₃₋₂ 라는 삼각 부등식을 성립시킨다. 정리 5는 동일한 상태·액션 공간을 공유할 때 총변동거리(TV)를 이용해 maxₛ d₁₋₂(s,s) ≤ (1/(1−γ))·maxₛ H(Xₛ,Xₛ;δ_TV) 라는 상한을 제공한다. 특히 M₁ = M₂이면 오른쪽 항이 0이 되어 d(s,s)=0, 즉 동일성(indiscernibility)도 보장한다.
이러한 성질을 바탕으로 정책 전이(정리 6), 상태 집합화(정리 7), 샘플 기반 근사(정리 8‑9)에서 기존 BSM 기반 경계보다 엄격히 타이트한 결과를 도출한다. 특히 샘플 복잡도는 폐쇄형 식으로 제시돼, 이전의 비대칭적·점근적 결과를 대체한다. 실험에서는 Garnet MDP와 무선 네트워크 시뮬‑실제 전이 과제를 통해 이론적 한계가 실제 성능 향상으로 이어짐을 확인하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기