무작위 가중치 CNN·ESN 기반 강화학습 모델 RCRC

본 논문은 고정된 무작위 가중치를 갖는 컨볼루션 신경망(CNN)과 에코 상태 네트워크(ESN)를 결합한 “Convolutional Reservoir Computing for World Models”(RCRC) 방식을 제안한다. 시각 특징과 시계열 특징을 학습 없이 빠르게 추출하고, 행동 결정은 CMA‑ES로 최적화된 선형 컨트롤러만 학습한다. 데이터 저장이 필요 없으며 계산 비용이 크게 감소한다. CarRacing‑v0 환경에서 평균 점수 90…

저자: Hanten Chang, Katsuya Futagami

본 논문은 강화학습(RL)에서 시각 및 시계열 특징을 추출하는 기존 딥러닝 기반 방법들의 높은 계산 비용과 대량 데이터 저장 문제를 해결하고자, 무작위 고정 가중치를 이용한 컨볼루션 레지버(Convolutional Reservoir) 구조를 제안한다. 제안된 RCRC(Reinforcement Learning with Convolutional Reservoir Computing) 모델은 크게 네 개의 레이어로 구성된다. 첫 번째 레이어는 무작위 고정 가중치 CNN이다. 입력 이미지(예: CarRacing‑v0의 게임 화면)를 가우시안 분포에서 샘플링된 필터와 편향으로 바로 변환하여 D_conv 차원의 시각 특징 벡터 X_conv(t)를 만든다. 이 단계에서는 역전파가 전혀 수행되지 않으며, 가중치가 고정돼 있기 때문에 연산량이 매우 적다. 두 번째 레이어는 에코 상태 네트워크(ESN)이다. X_conv(t)와 이전 ESN 상태 X_esn(t)를 입력으로 받아, 무작위 매트릭스 W_in과 W를 이용해 ˜X_esn(t+1)=f(W_in·X_conv(t)+W·X_esn(t)) 를 계산하고, 누수율 α에 따라 X_esn(t+1)=(1−α)X_esn(t)+α˜X_esn(t+1) 로 업데이트한다. ESN은 전통적인 RNN과 달리 가중치를 학습하지 않으며, 무작위 변환만으로도 복잡한 동적 정보를 보존하는 ‘레지버’ 역할을 수행한다. 세 번째 레이어는 두 레이어에서 얻은 특징을 결합한 ‘컨볼루션 레지버 컴퓨팅 레이어’로, 최종 특징 벡터 S(t)=

무작위 가중치 CNN·ESN 기반 강화학습 모델 RCRC

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기