정밀 행동을 위한 자기 교정 및 종료 프레임워크 VLA SCT
초록
본 논문은 VLA(시각‑언어‑행동) 모델이 세밀한 조작 작업에서 보이는 위치 오차와 작업 종료 인식 실패 문제를 해결하기 위해, 학습 없이 적용 가능한 경량형 자기 교정·종료 프레임워크인 VLA‑SCT를 제안한다. Trajectory Evaluation, Grasp Perturbation, Termination Detection의 세 모듈을 순환시켜 초기 계획을 평가·보정하고, 시각적 유사도 기반으로 작업 완료를 판단한다. LIBERO 벤치마크 전 영역에서 성공률을 평균 6.1%p 상승시키며, 기존 모델 대비 추론 속도도 약 1.1배 가속한다.
상세 분석
VLA‑SCT는 기존 VLA 모델의 출력(액션 토큰)을 그대로 사용하면서, 외부 제어 레이어를 통해 두 가지 핵심 결함을 보완한다. 첫 번째 모듈인 Trajectory Evaluation은 곡률·비틀림 기반 효율성 점수(S_eff), SO(3) 위에서의 지오데식 거리 기반 자세 안정성 점수(S_sta), 그리고 최소 jerk 원칙에 따른 매끄러움 점수(S_smo)를 종합해 초기 궤적의 품질을 정량화한다. 이때 사용된 수식은 로봇 공학에서 널리 검증된 미분기하학적 접근을 차용해, 실시간 계산 비용을 최소화하도록 설계되었다.
두 번째 모듈인 Grasp Perturbation은 평가 결과가 사전 정의된 임계값 이하일 경우 활성화된다. 여기서는 현재 시각 피처와 과거 성공 사례의 피처 간 유사도를 RBF 커널로 가중치(w_i)화하고, 가중 평균(a_µ)과 공분산(Q)을 추정한다. 정규화된 공분산 행렬(Q_reg)에 기반한 이방성 노이즈와 등방성 노이즈를 결합한 교정 액션 a_f는 기존 액션 a_c에 선형 보정(α)과 확률적 탐색(β·T) 요소를 더해, 미세한 위치 오차를 실시간으로 보정한다. 클리핑을 통해 물리적 제한을 준수함으로써 안전성을 확보한다.
세 번째 모듈인 Termination Detection은 현재 카메라 이미지와 저장된 성공 이미지 집합(M) 사이의 피어슨 상관계수(r)를 이용해 유사도 점수(S)를 계산한다. S가 사전 설정된 임계값 τ를 초과하면 작업이 완료된 것으로 판단하고, 즉시 정지 신호를 전송한다. 비파라메트릭 방식이므로 환경 변화에 강인하며, 밝기·대비 변동에도 견고하게 동작한다.
실험에서는 OpenVLA‑7B를 베이스라인으로 사용하고, VLA‑SCT는 추론 단계에서만 적용되는 플러그인 형태로 구현되었다. LIBERO 데이터셋 전 영역에서 평균 성공률 81.55%를 달성했으며, 특히 Object와 Spatial 카테고리에서 92.8%·91.2%라는 높은 점수를 기록했다. Ablation 실험은 각 모듈의 기여도를 명확히 보여주며, 전체 시스템이 개별 모듈보다 월등히 높은 성능을 제공함을 입증한다. 또한, 임계값 민감도 분석을 통해 교정 모듈 활성화 비율과 성공률 사이의 최적 균형점(τ≈0.75)을 제시한다. 전체적으로 VLA‑SCT는 학습 비용 없이 기존 VLA 모델의 정확도와 효율성을 동시에 향상시키는 실용적인 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기