계층적 후속 표현을 통한 견고한 전이 학습

계층적 후속 표현을 통한 견고한 전이 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
후속 표현(SR)은 보상 변동에 빠르게 적응하지만 정책 의존성과 전역적인 특성 때문에 복잡한 환경에서 한계가 있다. 본 논문은 옵션을 이용한 시간적 추상화를 도입한 계층적 후속 표현(HSR)을 제안하고, 이를 비음수 행렬분해(NMF)와 결합해 희소하고 해석 가능한 저차원 상태 특징을 얻는다. HSR은 정책 변화에 강인하고, 보상 재구성 시 샘플 효율이 높으며, 복잡한 미로 환경에서도 탐색 효율을 크게 향상시킨다.

**

상세 분석

**
후속 표현(SR)은 (V^{\pi}(s)=M^{\pi}R) 형태로 가치 함수를 분해해 보상 구조가 바뀔 때 빠른 재평가를 가능하게 한다. 그러나 SR은 (M^{\pi}) 가 현재 정책 (\pi) 에 직접 의존하기 때문에 학습 중 정책이 변하면 특징 자체가 뒤틀려 재학습이 필요하다. 또한 복잡한 토폴로지를 가진 환경에서는 SR의 스펙트럼 확산이 심해 ‘전역적’ 특징이 밀집하고 중복되어 차원 축소가 어려워진다.

논문은 이러한 문제를 해결하기 위해 옵션 프레임워크를 활용한다. 옵션 (\omega_i=\langle I_i,\pi_i,\beta_i\rangle) 은 시작 집합, 내부 정책, 종료 함수를 갖는 시간적 확장 행동이다. HSR은 (\mu) 라는 고수준 옵션 정책에 대해 (M^{\mu}) 를 정의하고, 각 옵션 내부의 SR (M^{\bar a}) 와 옵션 지속시간 (\tau^{\bar a}) 를 이용해 \


댓글 및 학술 토론

Loading comments...

의견 남기기