스플라인 기반 적응형 네트워크로 구현하는 효율적인 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자원 제한 환경에서 강화학습의 샘플 효율성과 파라미터 효율성을 동시에 개선하기 위해, 저차원 텐서곱 B‑스플라인과 학습 가능한 전처리 레이어를 결합한 SPAN(스플라인 기반 적응형 네트워크) 구조를 제안한다. PPO, SAC, IQL 등 대표적인 온라인·오프라인 RL 알고리즘에 적용한 결과, 기존 MLP 대비 30‑50 % 빠른 샘플 수렴과 1.3‑9배 높은 성공률을 달성했으며, 하이퍼파라미터 변화에 대한 강인성도 입증하였다.

상세 분석

본 연구는 강화학습에서 흔히 사용되는 전통적인 다층 퍼셉트론(MLP)이 매끄러운 가치 함수와 정책을 근사하는 데 필요한 파라미터 양이 과도하다는 점에 착안한다. MLP는 전역적인 연결 구조 때문에 입력 차원마다 동일한 표현 용량을 할당하게 되며, 이는 특히 연속적인 상태‑액션 공간에서 지역적인 스무스성을 활용하지 못한다는 한계가 있다. 이러한 구조적 비효율성을 극복하기 위해 저자들은 KHRONOS 프레임워크에서 제안된 텐서곱 B‑스플라인을 기반으로 한 분리 가능한 아키텍처를 강화학습에 맞게 변형하였다. 핵심 아이디어는 (1) 각 차원별로 제한된 개수의 B‑스플라인 기저함수를 사용해 로컬 지원을 제공함으로써 파라미터를 차원에 선형적으로 스케일링하고, (2) 학습 가능한 전처리 레이어(완전 연결 + 시그모이드)를 도입해 환경 관측을

스플라인 기반 적응형 네트워크로 구현하는 효율적인 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기