숨겨진 구조를 찾아내는 스펙트럴 강화학습: 풍부 관측 MDP의 저차원 매핑과 저레그레트 알고리즘

** 본 논문은 관측 공간이 매우 크지만 숨겨진 저차원 상태가 존재하는 풍부 관측 MDP(ROMDP)를 대상으로, 관측‑숨겨진 매핑을 스펙트럴 텐서 분해로 일관적으로 학습하고, 이를 UCRL 기반의 낙관적 강화학습에 통합한 SL‑UCRL 알고리즘을 제안한다. 제한된 가정 하에 평균 레그레트를 은닉 MDP 수준으로 감소시키는 유한시간 레그레트 경계와 차원 의존도가 약한 복잡도 분석을 제공한다. **

저자: Kamyar Azizzadenesheli, Aless, ro Lazaric

** 본 논문은 대규모 관측 공간을 가진 마코프 결정 과정(MDP)에서, 숨겨진 저차원 구조를 활용해 학습 효율성을 높이는 방법을 제시한다. 저자는 “Rich‑Observation MDP”(ROMDP)라는 모델을 정의한다. ROMDP는 숨겨진 상태 집합 X와 관측 집합 Y( |X|≤|Y| )를 갖으며, 각 관측 y∈Y는 정확히 하나의 숨겨진 상태 x∈X에 의해 생성되는 일대일 매핑 O∈ℝ^{Y×X}을 가진다. 이 매핑은 사전에 알려지지 않으며, 학습 알고리즘은 오직 관측 시퀀스와 행동 시퀀스만을 이용해 이를 추정해야 한다. 보상은 숨겨진 상태와 행동에만 의존하고, 전이 텐서 T∈ℝ^{X×X×A}와 관측 행렬 O가 MDP의 전반적인 동역학을 정의한다. 문제 설정에서 두 가지 핵심 가정을 둔다. 첫 번째는 어떤 정책 π에 대해서도 숨겨진 마코프 체인이 에르고딕이며 고유의 정 stationary distribution ω^π를 가진다는 것, 두 번째는 각 행동 l에 대한 전이 텐서 슬라이스 T_{::l}가 풀‑랭크(full‑rank)라는 것이다. 첫 가정은 충분히 탐색되는 정책을 보장하고, 두 번째 가정은 관측‑숨겨진 관계를 복원하는 데 필요한 선형 독립성을 제공한다. 알고리즘 설계는 다중‑뷰 모델에 기반한다. 관측 시퀀스 (y_{t‑1}, y_t, y_{t+1})와 행동 a_t=l을 세 개의 뷰 v₁, v₂, v₃ 로 변환한다. 조건부 독립성(숨겨진 상태 x_t와 행동 a_t에 조건)으로 인해 이 세 뷰는 서로 독립이며, 이를 이용해 2차 모멘트 K^{(l)}_{p,q}=E

숨겨진 구조를 찾아내는 스펙트럴 강화학습: 풍부 관측 MDP의 저차원 매핑과 저레그레트 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기