신경암시적 행동 필드: 이산 웨이포인트에서 연속 함수로의 전환
초록
본 논문은 로봇 행동을 이산적인 웨이포인트가 아닌 연속적인 함수로 모델링하는 새로운 패러다임인 Neural Implicit Action Fields(NIAF)를 제안한다. 멀티모달 대형 언어 모델(MLLM)을 하이퍼네트워크로 활용해 SIREN 기반의 암시적 신경 표현에 파라미터를 조정함으로써, 무한 해상도의 궤적을 한 번의 전방 패스로 생성한다. 연속성 덕분에 속도·가속도·잭(jerk)까지 분석적으로 미분 가능해 물리적 일관성과 임피던스 제어에 필요한 피드포워드 신호를 정확히 제공한다. CALVIN·LIBERO 벤치마크와 실제 로봇 실험에서 기존 이산 방식보다 우수한 성능을 보이며, 고주파 제어와 부드러운 동작을 실현한다.
상세 분석
NIAF는 로봇 행동 예측의 근본적인 한계인 “이산 웨이포인트” 방식을 완전히 탈피한다. 기존 VLA 모델들은 10 Hz·20 Hz 등 고정된 샘플링 레이트에 맞춰 위치 시퀀스를 출력하고, 고차 미분(속도·가속도·잭) 정보를 얻기 위해 수치 미분을 사용한다. 이는 샘플링 간격에 의존하는 양자화 오류와 급격한 속도 변화를 초래해 임피던스 제어나 부드러운 접촉 작업에 부적합하다. NIAF는 이러한 문제를 두 단계로 해결한다. 첫째, 행동을 연속 시간 함수 A(τ)=Φ(τ;θ) 로 정의하고, θ를 직접 예측하도록 설계한다. 여기서 Φ는 SIREN(사인 활성화 신경망)으로 구현돼 C∞(무한 차 미분 가능) 특성을 갖는다. 둘째, MLLM을 하이퍼네트워크로 활용해 입력된 이미지·프로프리오셉션·자연어 명령을 토대로 θ를 구성하는 메타 파라미터(W,b)와 인스턴스‑특정 변조 계수(γ,β)를 생성한다. 이 변조는 “스펙트럼 모듈레이터”라 불리며, 주파수와 위상을 조절해 동작 궤적을 상황에 맞게 변형한다.
구조적으로 NIAF는 Q개의 쿼리 임베딩을 MLLM 디코더에 투입해 Z={z₁,…,z_Q} 라는 변조 잠재벡터 시퀀스를 만든다. Z는 SIREN의 L 레이어와 G+1개의 토큰 블록에 일대일 매핑돼, 각 레이어의 가중치와 편향을 독립적으로 조절한다. 이렇게 계층화된 변조는 파라미터 공간을 메타‑프라임(공통 운동 원시)과 인스턴스‑특정 변형으로 명확히 분리해 학습 효율성을 높인다.
연속 함수 특성 덕분에 속도 v(τ), 가속도 a(τ), 잭 j(τ) 등을 체인룰·곱셈법칙을 이용해 정확히 계산할 수 있다. 논문은 이를 기반으로 물리 기반 손실을 설계했으며, 위치 손실 외에 속도·가속도·잭에 대한 L2 정규화를 추가해 고차 동역학 일관성을 강제한다. 결과적으로 훈련 단계에서부터 물리적으로 실현 가능한 궤적을 학습하게 된다.
실험에서는 CALVIN·LIBERO 데이터셋에서 다양한 백본(Florence‑2, Qwen‑3‑VL 등)과 결합해 SOTA 성능을 달성했다. 특히 고주파(>100 Hz) 제어 시에도 부드러운 궤적을 유지했으며, 실제 로봇(프리즘형 팔)에서는 임피던스 제어 루프에 NIAF가 제공하는 정확한 속도·가속도 피드포워드를 삽입해 진동을 크게 감소시키고, 섬세한 조작(예: 유리컵 잡기)에서 기존 이산 방식보다 안정성을 크게 향상시켰다.
핵심 기여는 (1) 행동을 연속 함수로 재정의한 새로운 패러다임, (2) MLLM 기반 계층적 스펙트럼 변조를 통한 파라미터 효율적 생성, (3) 고차 미분 가능성을 활용한 물리 기반 감독 및 임피던스 제어 적용 가능성, (4) 다양한 백본과 환경에서 입증된 확장성이다. 앞으로는 복합 다관절 로봇, 비정형 접촉 작업, 그리고 실시간 적응 제어에 NIAF를 적용해 보다 인간에 가까운 동작을 구현하는 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기