SSD Mamba2 기반 시각과 프로프리오셉션 융합 강화학습 로봇 모션 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SSD‑Mamba2라는 선택적 상태공간 모델을 활용해 시각(깊이 이미지)과 프로프리오셉션 정보를 효율적으로 융합하고, 이를 PPO 기반 강화학습 파이프라인에 적용함으로써 사각보행 로봇의 모션 제어 성능을 크게 향상시켰음을 보여준다. 근거리·장거리 의존성을 거의 선형 시간·메모리 복잡도로 처리해 기존 Transformer 기반 방법보다 높은 해상도와 긴 시간 맥락을 제공한다.

상세 분석

본 연구는 로봇 모션 제어에서 시각‑프로프리오셉션 융합을 위한 백본으로 SSD‑Mamba2를 도입한 점이 가장 큰 혁신이다. SSD‑Mamba2는 상태공간 이중성(SSD)을 이용해 순환(recurrent) 연산과 블록‑와이즈 병렬 스캔을 동일한 수학적 표현으로 통합한다. 이 설계는 하드웨어 친화적인 스트리밍 실행을 가능하게 하며, 토큰 길이에 대해 거의 선형적인 시간·메모리 복잡도를 제공한다. 기존 Transformer는 자기‑어텐션이 O(N²) 비용을 요구해 토큰 수가 늘어나면 실시간 제어에 부적합했지만, SSD‑Mamba2는 입력‑의존적 상태 업데이트와 지수 감쇠 다이내믹스를 통해 장기 의존성을 안정적으로 유지한다.

구조적으로는 프로프리오셉션 벡터(93 차원)를 경량 MLP로 임베딩하고, 64×64 해상도의 깊이 이미지 4프레임을 소형 CNN으로 패치화해 토큰 시퀀스로 변환한다. 이 토큰들은 여러 층의 SSD‑Mamba2에 입력되어, 각 층이 선택적 상태 업데이트와 병렬 스캔을 교차 수행함으로써 시공간적 컨텍스트를 동시에 포착한다. 결과 토큰은 정책 헤드와 가치 헤드에 전달돼 PPO 알고리즘으로 직접 최적화된다.

학습 측면에서는 (1) 도메인 랜덤화와 (2) 장애물 밀도 커리큘럼을 도입해 환경 다양성을 크게 확대했으며, (3) 전진, 에너지 효율, 생존을 동시에 고려한 상태 중심 보상을 설계해 안전·효율을 동시에 달성하도록 유도했다. 실험에서는 다양한 지형·장애물 시나리오에서 SSD‑Mamba2 기반 에이전트가 기존 LSTM, Blind Proprioception, 그리고 Vision‑Transformer 기반 모델보다 높은 누적 보상, 낮은 충돌·낙상 비율, 그리고 샘플 효율성을 보였다. 특히 토큰 해상도를 2배 이상 늘려도 메모리 초과 없이 학습이 가능했으며, 이는 실제 로봇에 탑재 가능한 임베디드 GPU/CPU 환경에서도 실시간 제어가 가능함을 의미한다.

또한, SSD‑Mamba2의 선택적 스캔은 하드웨어 파이프라인에서 스트리밍 모드로 구현될 수 있어, 연산 지연(latency)이 수 ms 수준으로 감소한다. 이는 사각보행 로봇이 급격히 변하는 지형에 대한 선제적 회피 행동을 수행할 수 있게 하며, 기존 순환 네트워크가 겪던 그래디언트 소실·폭발 문제를 완화한다.

요약하면, SSD‑Mamba2는 (1) 선형 스케일링을 통한 고해상도·장기 시퀀스 처리, (2) 하드웨어 친화적 스트리밍 구현, (3) 선택적 상태 업데이트에 기반한 안정적 학습이라는 세 축을 동시에 만족시켜, 로봇 모션 제어 분야에서 실용적인 비전‑프로프리오셉션 융합 백본으로 자리매김한다.

SSD Mamba2 기반 시각과 프로프리오셉션 융합 강화학습 로봇 모션 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기