오프라인 강화학습을 위한 Decision MetaMamba: 선택적 SSM 정보 손실을 밀집 시퀀스 믹싱으로 극복
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
Decision MetaMamba(DMM)는 기존 Mamba 모델의 토큰 믹서를 전밀집 레이어 기반 시퀀스 믹서(DSM)로 교체하고, 위치 구조를 수정해 로컬 정보를 보존한다. DSM은 인접 토큰을 전체 채널 차원에서 동시에 혼합해 짧은‑범위 전이 역학을 효과적으로 학습하고, 이후 수정된 Mamba가 전역 의존성을 모델링한다. 두 믹서를 잔차 연결로 결합함으로써 선택적 스캔과 게이팅에 의해 발생하는 정보 손실을 완화한다. DMM은 MuJoCo, AntMaze, Franka Kitchen 등 D4RL 벤치마크에서 파라미터 수는 감소시키면서도 최신 SSM·Transformer 기반 방법들을 전반적으로 능가한다.
상세 분석
본 논문은 오프라인 강화학습을 시퀀스 모델링 문제로 재구성한 뒤, 최신 State‑Space Model(SSM)인 Mamba의 구조적 한계를 짚어낸다. Mamba는 깊이‑별 1D 컨볼루션을 이용해 토큰을 선택적으로 스캔하고, residual multiplication과 sigmoid 게이트를 통해 출력에 반영한다. 이러한 선택적 스캔은 자연어 처리에서는 불필요한 토큰을 억제하는 장점이 있지만, 강화학습에서는 상태(state), 행동(action), 반환‑to‑go(rtg)와 같은 핵심 토큰이 종종 0에 가까운 활성값을 보이며, 게이트에 의해 억제될 위험이 있다. 결과적으로 중요한 시점의 정보가 사라져 정책 성능이 저하된다는 점을 실험적 히트맵(그림 3)과 기존 연구
댓글 및 학술 토론
Loading comments...
의견 남기기