부분관찰 환경에서 학습되는 신경학적 후계자 표현 모델
이 논문은 감각 잡음과 관찰 제한이 있는 환경에서, 분포형 후계자 특징(distributional successor features)을 이용해 성공자 표현(SR)을 학습하는 신경학적으로 타당한 모델을 제시한다. 분산 분포 코드(DDC)를 활용해 잠재 상태와 그 동역학을 추정하고, 이를 통해 가치 함수와 정책 변화를 효율적으로 계산한다.
저자: Eszter Vertes, Maneesh Sahani
본 논문은 동물이나 인간이 환경과 상호작용할 때, 직접 관찰되지 않는 중요한 상태(예: 위치, 포식자 존재)를 추론해야 하는 문제를 다룬다. 기존 강화학습 이론에서 모델 기반 학습은 유연하지만 계산 비용이 크고, 모델 프리 학습은 빠르지만 보상 변화에 적응하기 어렵다. 이러한 두 접근법의 중간 단계로 제안된 성공자 표현(SR)은 정책에 따라 미래 상태 점유도를 미리 계산해 두어, 보상 함수가 바뀌어도 가치 함수를 빠르게 재계산할 수 있게 한다. 그러나 SR을 부분관찰 마코프 결정 과정(POMDP)에서 어떻게 학습하고 활용할 수 있는지는 아직 명확하지 않았다.
저자들은 ‘분산 분포 코드(Distributed Distributional Codes, DDC)’라는 신경 표현 방식을 도입한다. DDC는 뉴런 집단이 특정 인코딩 함수 ψ(s)의 기대값을 평균 발화율 µ로 나타내며, 이는 확률분포의 충분통계량에 해당한다. 이를 이용해 잠재 상태 s와 관찰 o 사이의 생성 모델 p(s_{t+1}|s_t)와 p(o_t|s_t)를 파라미터화하고, 인식 모델 f_W를 통해 관찰 시퀀스 O_t에 대한 후방분포 µ_t를 순차적으로 추정한다. 학습은 ‘wake‑sleep’ 알고리즘으로 진행된다. ‘sleep’ 단계에서는 현재 생성 모델을 사용해 잠재·관찰 시퀀스를 시뮬레이션하고, 인식 모델 파라미터 W를 순간 평균과 일치하도록 업데이트한다. ‘wake’ 단계에서는 실제 관찰을 받아 DDC 형태의 µ_t를 얻고, 이를 기반으로 전이 행렬 T를 최소제곱 방식으로 학습한다. T는 잠재 상태의 특징 ψ(s) 기대값을 선형 변환으로 예측한다.
연속 상태 공간에서 SR을 적용하기 위해 특징 함수 ψ(s)를 사용해 성공자 특징 M(s_t)=E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기