시각‑언어‑동작 모델을 위한 중복 인식 및 호환성 최적 엣지‑클라우드 분할 프레임워크 RAPID
초록
RAPID은 시각‑언어‑동작(VLA) 모델의 실시간 추론을 위해, 시각 노이즈에 강인한 관절 가속도·토크와 같은 운동학적 지표를 활용해 엣지와 클라우드 간 작업을 동적으로 분할한다. 단계별 중복성을 인식해 불필요한 연산을 엣지에서 처리하고, 핵심 상호작용은 클라우드로 오프로드함으로써 최대 1.73배 가속과 5‑7% 수준의 오버헤드만을 발생시킨다.
상세 분석
본 논문은 기존의 환경‑기반(vision‑based) 엣지‑클라우드 파티셔닝이 시각적 노이즈에 취약하고, VLA 모델 특유의 단계별 중복성을 고려하지 못한다는 두 가지 근본적인 한계를 지적한다. 첫 번째 한계는 시각 입력을 Shannon entropy 등으로 측정해 오프로드 시점을 결정하는 방식이 조명 변화, 배경 잡음, 카메라 흔들림 등에 의해 임계값을 쉽게 초과해 불필요한 클라우드 호출을 유발한다는 점이다. 두 번째 한계는 VLA 모델이 여러 타임스텝에 걸쳐 동일한 “무의미” 행동을 반복하는 경우가 많아, 이러한 중복 연산을 엣지에서 수행해도 전체 성능에 큰 영향을 주지 않음에도 불구하고 기존 방법은 이를 구분하지 못한다는 것이다.
RAPID은 이러한 문제를 해결하기 위해 두 가지 핵심 메커니즘을 제안한다. ① 호환성‑최적 파티셔닝: 관절 가속도(¨q)와 토크(τ)를 실시간으로 측정하고, 가속도 크기 M_acc(t)=‖W_a·¨q_t‖₂ 를 슬라이딩 윈도우 평균·표준편차와 정규화해 이상점(anomaly) 점수를 산출한다. 급격한 비선형 운동(예: 급정지, 방향 전환, 충돌 회피) 시에만 점수가 임계값을 초과해 클라우드 오프로드를 트리거한다. 이는 시각 정보와 무관하게 로봇 자체의 동역학 변화를 직접 반영하므로, 다양한 환경에서도 일관된 파티셔닝 결정을 가능하게 한다.
② 중복‑인식 파티셔닝: VLA 내부 어텐션 가중치를 분석한 결과, “핵심 상호작용” 단계에서는 어텐션이 집중되고, “접근” 단계에서는 거의 균등하게 낮은 값을 보인다. 이러한 어텐션 패턴은 관절 토크의 급격한 변동과 높은 상관관계를 가지며, 토크는 저레벨 센서에서 거의 비용 없이 획득할 수 있다. 따라서 RAPID은 토크 τ_t 를 실시간으로 모니터링해 “고중복”(토크 변동이 작고, M_acc도 낮음) 구간은 엣지에서 처리하고, “저중복”(토크 급증, M_acc 급등) 구간은 클라우드로 전송한다.
실험에서는 Pick‑Place, Drawer Opening, Peg Insertion 등 3가지 대표적인 조작 작업을 4가지 서로 다른 시각적 노이즈 환경(노이즈 없음, 조명 변동, 배경 잡음, 시각적 방해)에서 평가하였다. 결과는 기존 Vision‑Based 전략이 노이즈가 심해질수록 오프로드 비율이 급증해 전체 지연이 2배 이상 늘어나는 반면, RAPID은 평균 1.73배 가속을 달성하고, 전체 파라미터 전송량을 5‑7% 수준으로 억제함을 보여준다. 또한, 핵심 상호작용 단계에서의 정확도 향상이 15.8%에 달해, 단순히 속도만을 개선한 것이 아니라 로봇 행동의 질도 동시에 높였다.
한계점으로는 토크와 가속도 측정이 가능한 로봇에 한정된다는 점, 그리고 현재 구현이 주로 시뮬레이션 기반이라는 점을 들 수 있다. 향후 연구에서는 저전력 임베디드 센서와의 통합, 다중 로봇 협업 시 파티셔닝 정책의 확장, 그리고 비정형 환경(예: 인간-로봇 협업)에서의 적응성을 검증할 필요가 있다.
요약하면, RAPID은 운동학 기반의 파티셔닝 트리거와 단계별 중복성을 활용한 연산 배분이라는 두 축을 통해 VLA 모델의 실시간 추론을 효율화하고, 시각적 환경 변화에 강인한 호환성을 제공한다는 점에서 기존 ECC 프레임워크를 뛰어넘는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기