Geometry 인식 다중뷰로 보는 보이지 않는 객체 자세 추정
초록
PoseGAM은 쿼리 이미지와 여러 템플릿 이미지를 동시에 입력받아, 명시적 매칭 없이 6D 객체 자세를 직접 예측하는 엔드‑투‑엔드 모델이다. 기존 멀티뷰 기반 foundation model에 명시적 점 기반 geometry와 학습된 3D 특징을 view‑map 형태로 주입해 기하 정보를 보강하고, 190 k개 이상의 객체를 포함한 대규모 합성 데이터셋으로 사전 학습한다. 실험 결과 여러 베치마크에서 평균 AR 5.1 %·최대 17.6 % 향상을 달성하며, 미지 객체에 대한 일반화 능력을 입증한다.
상세 분석
PoseGAM은 최근 성공을 거둔 멀티뷰 트랜스포머 구조를 6D 객체 자세 추정에 맞게 재구성한 점이 가장 큰 혁신이다. 기본 아이디어는 “쿼리 이미지 + 다수의 템플릿 이미지(정확한 pose와 함께 렌더링된 이미지)”를 하나의 시퀀스로 취급하고, 각 이미지에 대응하는 카메라 토큰을 함께 입력함으로써 네트워크가 직접 객체의 3D 변환을 학습하도록 하는 것이다. 이때 기존 멀티뷰 모델이 이미지만을 입력받아 카메라 포즈를 추정하던 한계를 극복하기 위해 두 종류의 geometry 정보를 추가한다.
첫 번째는 명시적 점 기반 geometry이다. 객체 메쉬를 템플릿 뷰마다 깊이 맵으로 렌더링하고, 이를 세계 좌표계의 포인트 맵으로 변환한다. 포인트 맵은 경량 CNN을 통해 토큰화된 뒤, 멀티뷰 이미지 토큰과 cross‑attention으로 교환된다. 이렇게 하면 이미지 토큰이 직접 3D 좌표 정보를 “볼” 수 있어, 시각적 도메인 차이(렌더링 vs 실세계)에도 강인한 특징 학습이 가능해진다.
두 번째는 학습된 3D 특징이다. PointTransformer‑v3 같은 최신 포인트 클라우드 네트워크를 이용해 전체 메쉬에서 전역 및 로컬 특징을 추출하고, 이를 포인트 맵의 채널에 삽입해 view‑map 형태로 재구성한다. 이 view‑map은 이미지와 동일한 2D 토큰 형태이므로, 기존 DINOv2 기반 이미지 인코더와 자연스럽게 결합될 수 있다. 실험에서는 원시 포인트 클라우드 토큰을 바로 사용했을 때 학습이 불안정해지는 현상을 관찰했으며, view‑map 변환이 성능을 크게 끌어올린다는 점을 강조한다.
학습 과정은 완전한 감독 방식이다. 네트워크는 최종적으로 템플릿 뷰들의 카메라 토큰을 디코딩해 각 뷰에 대한 카메라‑객체 변환을 예측하고, 이를 역행렬 연산으로 쿼리 이미지에 대한 객체‑카메라 변환(T_query)으로 변환한다. 손실은 예측된 카메라 포즈와 정답 포즈 사이의 L2 차이와 회전 부분에 대한 quaternion loss를 결합한다.
데이터 측면에서 저자들은 190 k개 이상의 고품질 3D 모델을 수집하고, 텍스처 재베이킹, UV 정규화 등을 통해 렌더링 일관성을 확보하였다. 각 객체당 50개의 무작위 카메라 포즈를 정의하고, RGB 이미지, 깊이 맵, 포인트 맵, 색·노멀 정보 등을 동시에 생성한다. 이렇게 만든 합성 데이터는 다양한 조명·배경·노이즈 조건을 포함해, 실제 환경에서의 도메인 갭을 최소화한다.
실험 결과는 두드러진 성능 향상을 보여준다. LINEMOD, YCB‑Video, T-LESS 등 기존 6D 포즈 베치마크에서 평균 AR이 기존 최첨단 방법 대비 5.1 % 상승했으며, 특히 조명 변화가 큰 데이터셋에서는 17.6 %까지 개선되었다. Ablation study에서는 (1) geometry 토큰을 제외했을 때 성능이 급격히 떨어지고, (2) point‑map vs feature‑map 각각의 기여도를 정량화해 두 접근법이 상보적임을 입증한다. 또한, 실제 로봇 팔을 이용한 물체 잡기 실험에서도 PoseGAM이 높은 성공률을 기록해 실시간 로봇 응용 가능성을 시사한다.
한계점으로는 (a) 현재는 템플릿 이미지가 사전에 렌더링되어야 하므로, 실시간으로 새로운 객체를 추가하려면 렌더링 파이프라인이 필요하고, (b) 대규모 합성 데이터에 의존하는 만큼 실제 도메인에서의 미세한 텍스처 차이나 반사 효과에 대한 추가 적응이 요구될 수 있다. 향후 연구에서는 템플릿 이미지 없이도 객체의 CAD 모델만으로 즉시 추론할 수 있는 “on‑the‑fly” 렌더링 모듈이나, 도메인 적응을 위한 self‑supervised fine‑tuning 기법을 탐색할 여지가 있다.
전반적으로 PoseGAM은 멀티뷰 트랜스포머에 geometry 정보를 효과적으로 융합함으로써, 기존 매칭‑기반 파이프라인의 병목을 제거하고, 미지 객체에 대한 강인한 6D 포즈 추정을 가능하게 만든 중요한 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기