멀티스킬 로봇을 위한 MergeVLA 모델 병합 기반 일반화 비전 언어 액션 에이전트

멀티스킬 로봇을 위한 MergeVLA 모델 병합 기반 일반화 비전 언어 액션 에이전트
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MergeVLA는 기존 비전‑언어‑액션(VLA) 모델이 서로 다른 작업에 대해 파인튜닝될 때 발생하는 파라미터 충돌과 구조적 비호환성을 해결하기 위해 설계된 병합‑지향 아키텍처이다. 작업별 LoRA 어댑터에 마스크를 적용해 파라미터 충돌을 억제하고, 액션 디코더의 셀프‑어텐션을 제거해 교차‑어텐션만 남김으로써 블록 간 의존성을 최소화한다. 테스트 시에는 관찰된 이미지와 명령을 기반으로 작업 라우터가 가장 적합한 마스크와 전문가 헤드를 선택한다. LIBERO, LIBERO‑Plus, RoboTwin 및 실제 SO101 로봇 팔 실험에서 개별 전문가와 동등하거나 더 높은 성공률을 달성하며, 멀티스킬, 멀티임베디드, 멀티환경 전반에 걸친 일반화를 입증한다.

상세 분석

본 논문은 VLA 모델이 단일 작업에 특화될 때 파라미터와 구조가 급격히 분화되는 현상을 정량적으로 분석한다. 첫 번째 문제는 LoRA 어댑터가 프리트레인된 VLM 백본에 삽입돼 작업마다 서로 다른 방향으로 업데이트된다는 점이다. 실험적으로 각 작업의 LoRA 업데이트가 75% 이상을 ‘셀프‑시프’(즉, 오직 하나의 작업에만 유의미하게 기여)로 나타내며, 단순 평균이나 부호 기반 병합은 이러한 파라미터 충돌을 그대로 전파해 성능을 0% 수준으로 급락시킨다. 두 번째 문제는 액션 전문가가 완전 새롭게 학습되는 트랜스포머 블록을 포함하고, 특히 셀프‑어텐션 레이어가 깊이 쌓이면서 작업‑특화된 내부 표현이 레이어 전반에 퍼진다. 이는 블록 간 상호 의존성을 강화해 서로 다른 작업의 전문가를 단순 병합할 경우 파라미터 거리(L2)가 급격히 증가하고, 결국 병합이 불가능해지는 원인이다. 이러한 두 가지 비병합성을 해결하기 위해 MergeVLA는 (1) 작업별 이진 마스크 Sₘ을 도입해 병합된 LoRA 업데이트 τ_merge에 선택적으로 적용, 파라미터 충돌을 억제하고 프리트레인된 시각‑언어 지식을 보존한다. 마스크는 각 파라미터의 작업‑특이성(절대값)과 전체 병합과의 차이를 비교해 ‘유의미하고 지배적인’ 파라미터만을 남긴다. (2) 액션 전문가 설계를 재구성해 셀프‑어텐션을 완전히 제거하고 교차‑어텐션만 사용한다. 교차‑어텐션은 VLM에서 제공되는 고정된 시각‑언어 특징에만 의존하므로, 블록 간의 작업‑특화된 피드백 루프가 사라지고 대부분의 레이어가 단순 가중치 평균으로 병합 가능해진다. 다만 가장 깊은 L 블록(전문가 헤드)은 여전히 작업‑특화가 강해 별도로 유지한다. (3) 테스트 시 작업 정체성을 모를 경우, 관찰된 입력을 각 작업 마스크와 전문가 헤드에 적용해 VLM 숨겨진 상태를 추출하고, 병합된 액션 전문가의 value 프로젝션에 대한 주성분 응답을 계산해 가장 높은 점수를 받은 작업을 선택하는 무학습 라우터를 도입한다. 이 라우터는 각 작업별 마스크와 헤드의 활성화를 동적으로 결정해, 사전 작업 라벨 없이도 멀티스킬 수행을 가능하게 한다. 실험 결과, LIBERO, LIBERO‑Plus, RoboTwin 벤치마크에서 혼합‑작업 설정 하에 90.2%, 62.5%, 70.7%의 성공률을 기록했으며, 실제 SO101 로봇 팔에서도 90.0%의 성공률을 달성했다. 특히 기존 VLA‑Adapter 대비 13.4% 높은 OOD 강건성을 보이며, 파라미터 병합이 로봇 제어 분야에서도 실용적임을 증명한다.


댓글 및 학술 토론

Loading comments...

의견 남기기