환경 인식 적응형 프루닝과 인터리브 추론 오케스트레이션을 통한 VLA 가속
초록
EcoVLA는 훈련 없이 적용 가능한 두 단계(환경 인식 적응형 프루닝(EAP)과 인터리브 추론 오케스트레이션(I²O))를 통해 Vision‑Language‑Action 모델의 파라미터를 실시간으로 동적으로 압축한다. 시각적 피처 유사도와 시간적 컨텍스트를 이용해 스파시티 패턴을 업데이트하고, 연산 공백(FLOPs bubbles)을 활용해 프루닝 연산을 병렬화함으로써 지연을 최소화한다. 시뮬레이션 및 실제 로봇 실험에서 최대 2.18배 속도 향상을 달성하면서 성공률 저하를 0.5% 이하로 억제한다.
상세 분석
EcoVLA는 VLA(Vision‑Language‑Action) 모델이 실시간 로봇 제어에 사용될 때 발생하는 고연산 비용을 해결하기 위해 두 가지 핵심 모듈을 설계하였다. 첫 번째 모듈인 환경 인식 적응형 프루닝(EAP)은 “채널 프루닝”을 기반으로 하며, 기존의 정적 프루닝이나 고정 간격 동적 프루닝이 갖는 한계를 극복한다. EAP는 매 프레임마다 시각 인코더에서 추출된 토큰 피처를 이용해 현재 프레임과 이전 프레임 사이의 코사인 유사도를 계산한다. 이 유사도가 사전에 정의된 동적 임계값(최근 T 프레임 유사도 분포의 p‑분위수) 이하로 떨어지면 스파시티 패턴을 재계산한다. 여기서 동적 임계값은 환경 변화에 따라 자동으로 조정되므로, 급격한 움직임에서는 과도한 프루닝 업데이트를 억제하고, 정적인 상황에서는 미세한 변화를 감지해 빠르게 적응한다.
프루닝 계산 자체는 “즉시 피처”와 “히스토리 피처”를 결합한 형태로 수행된다. 즉시 피처는 현재 블록의 중간 활성값을 시퀀스 차원에서 평균 제곱합으로 압축한 값이며, 히스토리 피처는 지수 이동 평균(EMA) 방식으로 과거 프레임들의 즉시 피처를 누적한다. 이 두 피처를 α와 λ라는 두 개의 관성 파라미터로 가중합해 “융합 피처”를 만든 뒤, 가중치 행렬의 L2 노름과 융합 피처를 곱해 채널 중요도 점수를 산출한다. 점수가 낮은 채널은 입력 채널뿐 아니라 해당 채널이 연결된 중간 변환(T_l)과 출력 채널까지 동시에 제거한다. 이렇게 구조적 마스크를 적용하면 하드웨어 레벨에서 메모리 접근 패턴이 일정하게 유지돼 실제 가속 효과가 극대화된다.
두 번째 모듈인 인터리브 추론 오케스트레이션(I²O)은 프루닝 연산이 실시간 추론 파이프라인에 미치는 지연을 최소화한다. VLA 모델은 시각‑언어 인코더와 액션 전문가가 순차적으로 실행되는데, 이 과정에서 “FLOPs 버블”(연산이 대기하거나 메모리 I/O가 병목이 되는 구간)이 자연스럽게 발생한다. I²O는 이러한 버블을 활용해 프루닝 연산을 별도의 “프루닝 스트림”으로 분리하고, 메인 “추론 스트림”과 병렬로 실행한다. 프루닝 스트림은 현재 프레임의 스파시티 업데이트가 필요할 때만 활성화되며, 업데이트된 마스크는 다음 프레임부터 적용된다. 이 설계는 프루닝 연산이 실제 액션 생성 지연에 직접적으로 포함되지 않게 하여, 전체 시스템의 실시간성을 보장한다.
EcoVLA는 기존 토큰 프루닝 기법(FastV 등)과도 호환 가능하도록 설계되었다. 토큰 프루닝이 입력 토큰 수를 감소시켜 연산량을 크게 줄이는 반면, EcoVLA는 모델 내부 파라미터를 동적으로 감소시켜 추가적인 가속을 제공한다. 실험 결과, 토큰 프루닝만 적용했을 때 1.21× 속도 향상에 성공률이 1.2% 감소했으나, EcoVLA와 결합하면 2.18×까지 속도가 증가하면서 성공률 저하는 0.5% 미만으로 억제되었다.
마지막으로, 논문은 두 개의 시뮬레이터(LIBERO, SIMPLER)와 세 가지 최신 VLA 모델(OpenVLA‑OFT, π0.5, CogACT)에서 광범위한 벤치마크를 수행했다. 평균 1.6×~2.2×의 속도 향상을 기록했으며, 실제 7‑DoF Kinova Gen3 로봇에 적용해 실시간 조작 시뮬레이션과 동일한 가속 효과를 확인했다. 전체적으로 EcoVLA는 훈련 비용 없이도 환경 변화에 민감하게 적응하고, 하드웨어 효율성을 극대화하는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기