다중뷰 3D 재구성을 위한 경량화 지식증류 파이프라인 Distill3R
초록
Distill3R는 대규모 3D 기반 모델(teacher)의 기하학적 추론을 72M 파라미터 규모의 경량 학생 모델로 압축한다. 오프라인 캐시와 신뢰도 기반 손실을 도입해 교사 추론 비용을 학습 루프에서 분리하고, 저사양 워크스테이션에서도 3일 이내에 학습이 가능하도록 설계하였다. 파라미터는 9배 감소, 추론 속도는 5배 가속화했으며, 구조적 일관성과 절대 스케일 유지 능력은 크게 손상되지 않는다. 이는 대규모 GPU 클러스터 없이도 3D 비전 연구와 엣지 배포를 가능하게 하는 실용적인 베이스라인을 제공한다.
상세 분석
Distill3R는 현재 3D 재구성 분야에서 가장 큰 걸림돌인 ‘컴퓨팅 격차’를 해소하기 위해 두 가지 핵심 기술을 제안한다. 첫 번째는 오프라인 캐시 파이프라인이다. 기존 지식증류 방식은 매 학습 스텝마다 교사 모델을 실시간으로 실행해야 하므로 GPU 메모리와 연산량이 폭발한다. 저자들은 교사 모델(Fast3R)을 사전에 전체 데이터셋에 대해 한 번만 실행하고, 예측된 전역·국부 3D 포인트 맵과 픽셀‑단위 신뢰도 맵을 16비트 부동소수점으로 양자화하고, 유효 마스크는 RLE 압축한다. 이렇게 만든 캐시는 H×W 해상도를 224×518로 미리 다운샘플링해 패치 단위(14×14)와 정확히 맞추어, 학습 중 추가적인 리샘플링 연산을 없앤다. 결과적으로 I/O 병목을 최소화하고, GPU가 데이터 로딩을 기다리는 시간을 크게 줄인다.
두 번째는 신뢰도‑인식(distillation) 손실이다. 교사 모델이 자체적으로 생성한 픽셀‑단위 신뢰도(C_g, C_ℓ)를 손실 가중치에 직접 활용한다. 신뢰도가 낮은 영역(τ=0.3 이하)은 마스크(M)로 차단해 학생이 교사의 오류를 그대로 학습하지 않도록 한다. 손실은 L_total = λ₁·L_point + λ₂·L_confidence 형태로, L_point는 L2 거리 기반의 포인트 매핑 손실이며, L_confidence는 교사의 신뢰도와 학생의 예측 신뢰도 차이를 최소화한다. 이 설계는 학생 모델이 불확실한 영역에서 과도하게 업데이트되는 것을 방지하고, 저사양 GPU에서도 안정적인 수렴을 가능하게 한다.
학생 네트워크는 DUNE ViT‑S 인코더와 얕은 글로벌 퓨전 트랜스포머, 그리고 DPT 헤드를 사용한다. 교사의 CroCo 백본을 대체하면서도 3D‑aware 특성을 유지하도록 설계되었으며, 파라미터는 72M로 650M 교사 대비 9배 감소한다. 또한, 동일한 글로벌 어텐션 구조를 유지하되 레이어 수와 차원을 크게 축소해 연산량을 5배 가속한다. 실험 결과, 7‑Scenes와 같은 정밀 벤치마크에서는 절대적인 정확도(예: 평균 절대 거리)가 교사 대비 약 10% 정도 감소했지만, 구조적 일관성(예: 토폴로지 보존, 스케일 정확도)은 거의 유지되었다. 특히 OOD 객체‑중심 씬에서 절대 스케일 오류가 현저히 낮아 로봇 내비게이션이나 실시간 장애 회피와 같은 응용에 충분히 활용 가능하다.
전체 파이프라인은 데이터 통합 → 캐시 생성 → 학생 학습 순으로 진행되며, 모든 단계가 공개된 GitHub 레포지토리와 상세 스크립트로 재현 가능하도록 제공된다. 저자들은 이 접근법이 “연구 접근성”을 크게 향상시킬 뿐 아니라, 엣지 디바이스에 직접 배포 가능한 경량 3D 모델을 만들 수 있는 기반을 마련한다고 주장한다. 향후 연구에서는 교사‑학생 간의 상호 학습(co‑distillation)이나, 멀티‑스케일 어텐션을 추가해 정확도 격차를 줄이는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기