비정상 동역학을 위한 온라인 적응 강화학습: 에코 상태 네트워크 기반 경량 프레임워크

비정상 동역학을 위한 온라인 적응 강화학습: 에코 상태 네트워크 기반 경량 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 에코 상태 네트워크(ESN)와 재귀 최소 제곱(RLS) 알고리즘을 결합한 온라인 적응 프레임워크를 제안한다. ESN은 최근 관측 이력을 잠재 컨텍스트로 인코딩하고, 읽기층 가중치를 RLS로 실시간 업데이트함으로써 역전파 없이 빠른 적응을 가능하게 한다. 제안 방법은 CartPole과 HalfCheetah 환경에서 급격한 마찰 변화·외부 교란 등 비정상적인 동역학 변화를 겪을 때, 도메인 랜덤화(DR) 및 메타‑RL 기반 베이스라인보다 적은 학습 단계로 안정적인 제어 성능을 회복한다. 계산량이 적고 메모리 요구가 낮아 엣지 디바이스에 적합한 실시간 적응 솔루션으로 평가된다.

상세 분석

이 연구는 강화학습 정책이 시뮬레이션에서 학습된 뒤 실제 로봇에 적용될 때 발생하는 Sim2Real 격차와 비정상적인 동역학 변화를 해결하기 위해, 사전 학습이나 특권 정보 없이도 실시간으로 적응할 수 있는 경량 구조를 설계했다. 핵심 아이디어는 Reservoir Computing의 한 형태인 에코 상태 네트워크(ESN)를 활용해 관측 시퀀스를 고정된 랜덤 리저버에 매핑하고, 리저버의 출력층(읽기층)만을 재귀 최소 제곱(RLS) 방식으로 온라인 업데이트하는 것이다. ESN의 리저버는 고정 파라미터(입력 가중치, 재귀 가중치, 누수율)와 스펙트럼 반경 <1을 만족하도록 설계돼, 상태가 입력에 대한 ‘에코’ 특성을 유지한다. 이렇게 얻어진 내부 상태 xₜ는 선형 출력 W_out·xₜ 로 다음 상태를 예측하고, 예측 오차 eₜ = sₜ₊₁ – ŷₜ₊₁ 를 기반으로 RLS가 가중치와 공분산 행렬 Pₜ를 즉시 조정한다. λ(포겟팅 팩터)를 0.99 이하로 설정하면 과거 데이터의 영향이 급격히 감소해 급격한 파라미터 변동에도 몇 스텝 안에 적응한다.

제안 프레임워크는 Soft Actor‑Critic(SAC) 정책과 결합된다. SAC는 기존에 현재 상태 sₜ만을 입력으로 사용하지만, 여기서는 ESN이 예측한 다음 상태 ŷₜ₊₁ 를 sₜ와 결합한 확장 상태 ˜sₜ=


댓글 및 학술 토론

Loading comments...

의견 남기기