로봇‑디프트: 확산 모델 특징을 증류해 기하학적 일관성을 갖춘 비전모터 제어

로봇‑디프트: 확산 모델 특징을 증류해 기하학적 일관성을 갖춘 비전모터 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 현재 로봇 조작에 널리 쓰이는 판별형 비전 백본이 기하학적 민감도를 잃어 정밀 제어에 한계를 보인다는 점을 지적한다. 확산 모델이 내재하는 다중‑스케일 공간 구조를 교사로 삼아, 이를 결정론적 Student 네트워크인 Spatial‑Semantic Feature Pyramid Network(S2‑FPN)로 증류함으로써 실시간, 안정적인 시각 피드백을 제공한다. DROID 데이터셋으로 사전학습한 Robot‑DIFT는 기존 판별형 백본 대비 기하학적 일관성과 제어 성능이 크게 향상된다.

상세 분석

Robot‑DIFT는 로봇 조작에서 “시각‑행동” 루프가 요구하는 두 가지 상반된 특성을 동시에 만족시키려는 시도이다. 첫 번째는 기하학적 민감도이다. 밀리미터 수준의 물체 자세 변화가 특징 공간에서 일관된 변화를 일으켜야 정밀 잡기·삽입이 가능하지만, DINOv2·SigLIP 같은 판별형 인코더는 클래스 불변성을 최우선 목표로 학습돼 작은 변위에 대한 응답이 거의 사라진다. 두 번째는 실시간성이다. 확산 모델은 다단계 노이즈 제거 과정을 거치며, 이 과정은 본질적으로 확률적이고 연산량이 크다. 따라서 그대로 로봇 제어에 적용하면 행동이 진동하고 지연이 발생한다.

이 문제를 해결하기 위해 저자들은 Manifold Distillation이라는 학습‑전용 프레임워크를 도입한다. Stable Diffusion v2.1의 U‑Net 디코더를 고정된 교사(teacher) 로 사용하고, 동일한 다중‑스케일 구조를 갖는 Student U‑Net에 S2‑FPN을 결합한다. 교사는 노이즈‑조건부 중간 피처(코스·미드·파인 레벨)를 제공하고, Student는 이 피처들을 Manifold Loss(L2 기반)로 정밀하게 맞춘다. 이렇게 하면 Student는 교사의 기하학적 구조를 그대로 물려받으면서도, 추론 시에는 단일 포워드 패스로 끝나므로 stochastic jitter와 latency가 사라진다.

S2‑FPN은 세 단계의 피처를 Global‑to‑Fine Fusion으로 결합한다. 코스 레벨 피처는 전역 의미 정보를 제공하고, 이를 업샘플링해 미드·파인 레벨에 채널‑연결 후 ConvBlock으로 정제한다. 결과적으로 파인 레벨 피처는 전역 의미에 의해 보강되면서도 고해상도 경계·법선 정보를 유지한다. 또한, 시각 피처를 cross‑attention 기반 언어‑시각 정렬 모듈에 입력해 CLIP 텍스트 토큰과 결합함으로써, 명령어 기반 정책 학습에서도 공간 좌표가 보존된 상태로 활용할 수 있다.

학습 단계에서는 DROID(대규모 로봇 시연 데이터셋)로 대규모 사전학습을 수행한다. DROID는 다양한 조작 환경·시점·조명 조건을 포함하므로, Student가 교사의 기하학적 프라이어를 일반화된 로봇 시각 도메인에 맞출 수 있다. 이후 정책 학습(예: 행동‑조건부 RL 혹은 IL)에서는 고정된 Student 백본만 사용한다. 실험 결과, Robot‑DIFT는 Robocasa·VLA‑LIBERO‑10 등에서 기존 판별형 백본(DINOv2, SigLIP) 대비 **특징 변화율(Feature Gradient)**이 2배 이상 높으며, 삽입·조립·밀착 작업에서 성공률이 평균 12%p 상승한다. 또한, 추론 시간은 6 ms 수준으로 실시간 제어에 충분히 빠르다.

핵심 인사이트는 **“시각이 어떻게 학습되었는가가 행동 학습에 직접적인 영향을 미친다”**는 점이다. 판별형 목표는 의미적 불변성을 강화하지만, 이는 정밀 제어에 필요한 기하학적 변화를 억제한다. 반면, 확산 모델은 노이즈 복원 과정에서 공간 구조를 보존하도록 강제되므로, 그 내부 피처는 자연스럽게 기하학적 민감도를 갖는다. 이를 Deterministic Distillation을 통해 실시간 로봇 시스템에 적용함으로써, 두 목표를 동시에 달성한 것이 본 연구의 가장 큰 공헌이다.


댓글 및 학술 토론

Loading comments...

의견 남기기