MemoryVLA 장기 로봇 조작을 위한 지각‑인지 기억 프레임워크

MemoryVLA 장기 로봇 조작을 위한 지각‑인지 기억 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MemoryVLA는 인간의 작업 기억과 해마 기반 장기 기억을 모방해, 시각‑언어 모델(VLM)에서 추출한 지각 토큰과 인지 토큰을 작업 기억으로 사용하고, 이를 퍼셉추얼‑인지 메모리 뱅크(PCMB)에 저장한다. 작업 기억은 PCMB에서 시간‑위치 인코딩된 과거 엔트리를 검색·게이트 융합하고, 필요 시 유사 엔트리를 병합해 메모리를 압축한다. 최종적으로 메모리‑조건화된 확산 행동 전문가가 시간 의존적인 연속 행동을 생성한다. 150개 이상의 시뮬·실험 과제에서 기존 VLA 모델을 크게 앞서며, 특히 장기 의존 과제에서 26%p 이상의 향상을 보였다.

상세 분석

MemoryVLA는 로봇 조작이 본질적으로 비마르코프(Non‑Markov) 특성을 갖는다는 점에 착안해, 기존 Vision‑Language‑Action(VLA) 모델이 현재 프레임에만 의존하는 한계를 극복하고자 한다. 인간의 작업 기억(working memory)과 해마 기반 장기 기억(episodic memory) 구조를 그대로 차용한 것이 가장 큰 혁신이다. 구체적으로, 사전학습된 7B 규모의 Vision‑Language Model(VLM)을 이용해 현재 RGB 이미지와 언어 명령을 각각 ‘지각 토큰(p)’과 ‘인지 토큰(c)’으로 변환한다. 지각 토큰은 DINOv2와 SigLIP 백본을 병렬로 적용해 256개의 압축 토큰으로 만들고, 인지 토큰은 LLaMA‑7B에 명령을 결합해 EOS 위치의 임베딩을 추출한다. 이 두 토큰 집합이 ‘작업 기억(working memory)’을 형성한다.

작업 기억은 Perceptual‑Cognitive Memory Bank(PCMB)와 상호작용한다. PCMB는 두 개의 스트림(지각, 인지)으로 구성되며, 각각 L개의 엔트리를 저장한다. 각 엔트리는 시간 스텝을 나타내는 sinusoidal positional encoding을 더해 시계열 정보를 보존한다. 검색 단계에서는 현재 작업 기억이 쿼리 역할을 수행해, cross‑attention을 통해 PCMB의 전체 엔트리와 매칭한다. 이때 스케일드 닷‑프로덕트 어텐션을 사용해 유사도를 계산하고, softmax 가중치를 적용해 과거 토큰을 가중합한다. 두 번의 Transformer 레이어를 거쳐 최종 검색 결과 Hₚ와 H𝚌를 얻는다.

검색된 토큰은 Gate Fusion 모듈을 통해 현재 작업 기억과 융합된다. 구체적으로, 현재 토큰과 검색 토큰을 각각 선형 변환 후 sigmoid 게이트를 계산해, (gate · current + (1‑gate) · retrieved) 형태로 혼합한다. 이 과정은 인지와 지각 스트림 각각에 독립적으로 적용돼, 고수준 의미와 저수준 시각 정보를 동시에 반영한다.

메모리 압축(consolidation) 단계에서는 PCMB의 용량이 한계에 도달하면, 인접 엔트리 간 코사인 유사도를 측정해 가장 유사한 쌍을 병합한다. 병합은 토큰 평균과 시간 인코딩 재조정을 통해 수행되며, 메모리 크기를 일정하게 유지하면서도 중요한 연속 정보를 보존한다.

최종적으로, 메모리‑조건화된 Diffusion Action Expert가 인지 토큰을 조건으로, 지각 토큰을 보조 입력으로 받아 다중 단계(예: N = 10) 7‑DoF 연속 행동을 생성한다. 확산 모델은 노이즈를 점진적으로 제거하며, 시간적 일관성을 유지하는 행동 시퀀스를 출력한다.

실험은 SimplerEnv‑Bridge, Fractal, LIBERO‑5, Mikasa‑Robo 등 네 가지 시뮬레이션 벤치마크와 12개의 실제 로봇 과제(Franka와 Wido wX)에서 수행되었다. MemoryVLA는 Bridge와 Mikasa‑Robo에서 각각 기존 최첨단 모델(CogACT, π⁰) 대비 +14.6 %p, +11.8 %p의 성공률 향상을 기록했으며, 특히 장기 의존 과제에서는 +26 %p 이상의 개선을 보였다. 또한 배경, 조명, 물체 변형 등 OOD 상황에서도 견고한 성능을 유지했다.

Ablation 연구에서는 (1) PCMB 없이 단순 시퀀스 연결, (2) 검색 없이 전체 메모리 평균, (3) Gate Fusion을 제거한 경우 각각 성능이 5‑12 %p 감소함을 확인했다. 이는 검색·게이트·압축 세 요소가 상호보완적으로 작동함을 증명한다.

한계점으로는 메모리 엔트리 수와 압축 주기의 하이퍼파라미터 선택이 작업 종류에 따라 민감할 수 있다는 점, 그리고 현재는 RGB와 텍스트만을 입력으로 사용해 멀티모달(예: 힘/터치 센서) 정보를 아직 통합하지 못했다는 점을 들 수 있다. 향후 연구에서는 메모리 뱅크에 비전‑포스 센서 융합, 메타‑학습 기반 메모리 업데이트, 그리고 대규모 실제 로봇 데이터로의 확장을 목표로 한다.

전반적으로 MemoryVLA는 인간 기억 메커니즘을 로봇 조작에 성공적으로 도입함으로써, VLA 분야에서 시간 의존성을 다루는 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기