CoordAR: 하나의 레퍼런스로 보는 6D 포즈 추정, 토큰 기반 자동회귀 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoordAR는 단일 레퍼런스 RGB‑D 이미지만으로 미지의 물체 6D 포즈를 추정한다. 3D‑3D 대응을 이산 토큰 시퀀스로 표현하고, 모달리티‑디커플드 인코더와 자동회귀 트랜스포머 디코더를 결합해 확률적 좌표 맵을 생성한다. 토큰 기반 접근은 전역 일관성을 강화하고, 대칭·폐색 상황에서도 불확실성을 모델링한다. 실험 결과, 기존 One‑reference 방법들을 크게 앞서며 다양한 벤치마크와 실제 환경에서 강인함을 입증한다.

상세 분석

본 논문은 3D 모델이 전혀 없는 상황에서 ‘하나의 레퍼런스’만을 이용해 6DoF 물체 포즈를 추정하는 문제에 새로운 패러다임을 제시한다. 기존 One‑reference 방식인 One2Any는 컨볼루션 디코더를 이용해 연속 좌표값을 직접 회귀했지만, 제한된 수용 영역과 연속값 회귀의 불확실성 표현 부족으로 대칭 물체나 심한 폐색에 취약했다. CoordAR는 이러한 한계를 ‘좌표 맵 토큰화 + 자동회귀 생성’이라는 두 축으로 극복한다.

좌표 맵 토큰화: 3D‑3D 대응을 H×W 패치 단위로 양자화하고, 사전 학습된 VQ‑VAE 코드북을 이용해 각 패치를 이산 토큰으로 변환한다. 이 과정은 연속 좌표를 확률 분포로 바꾸어, 다중 가능한 대응(예: 대칭) 상황에서도 각 토큰에 대한 확률을 명시적으로 모델링한다.
모달리티‑디커플드 인코더: 레퍼런스 RGB와 레퍼런스 ROC(Reference Object Coordinates) 맵을 별도 인코더에 입력한다. RGB 인코더는 색·텍스처 정보를, ROC 인코더는 구조·좌표 정보를 각각 최적화해 학습한다. 이렇게 분리된 특징은 이후 교차‑어텐션 기반 Fusion Block에서 동일 모달리티 간 어텐션만 수행하도록 설계돼, RGB‑ROC 간 도메인 격차를 완화한다.
자동회귀 트랜스포머 디코더: Fusion Block에서 얻은 위치 정렬된 조건 특징을 토큰 시퀀스 생성에 활용한다. 마스크 토큰을 입력으로 하여 토큰을 순차적으로 예측하고, 각 단계에서 이전에 생성된 토큰과 조건 특징을 모두 사용한다. 이는 좌표 간 장거리 의존성을 학습하게 하여, 전역적인 일관성을 확보한다. 손실은 토큰 시퀀스 전체에 대한 음의 로그우도(NLL)이며, 학습 시 teacher‑forcing을 적용해 안정성을 높인다.
포즈 복원: 디코더가 생성한 토큰 시퀀스를 VQ‑VAE 디코더에 역입력해 픽셀 수준 ROC 맵 ˆX_Q 를 복원한다. 이후 정규화 행렬 S의 역변환과 쿼리 깊이 맵을 이용해 실제 3D 포인트를 얻고, Umeyama 알고리즘으로 최적 rigid 변환 T_RQ 를 계산한다.

핵심 기여와 장점

전역 일관성: 자동회귀 구조는 컨볼루션 기반 병렬 회귀보다 넓은 수용 영역을 자연스럽게 제공한다.
불확실성 모델링: 토큰화된 확률 분포는 대칭·폐색에 대한 다중 해답을 자연스럽게 표현한다.
모달리티 독립성: RGB와 좌표 정보를 별도 인코딩함으로써 두 입력 간 상호 간섭을 최소화하고, 다양한 센서 조합에도 유연하게 적용 가능하다.
실제 적용 가능성: 단일 레퍼런스와 RGB‑D 입력만 필요하므로, 로봇 현장이나 AR 디바이스에서 데이터 수집 비용을 크게 낮춘다.

실험: LM‑OCCL, YCB‑Video, 그리고 자체 구축한 실시간 로봇 시나리오에서 One2Any, FS6D, 그리고 최신 Transformer‑기반 방법들을 비교하였다. CoordAR는 평균 ADD‑S(0.1d) 점수에서 7~12%p 상승을 보였으며, 특히 대칭 물체(원기둥, 큐브)와 70% 이상 폐색 상황에서 기존 방법이 30% 이하 정확도를 보이는 반면 85% 이상의 정확도를 유지했다. Ablation study에서는 (i) 토큰화 없이 연속 회귀, (ii) 모달리티 통합 인코더, (iii) 비자동회귀 디코더 각각을 제거했을 때 성능이 현저히 떨어지는 것을 확인했다.

한계와 향후 과제: 현재 토큰화 해상도가 패치 크기에 의해 제한돼, 매우 정밀한 미세 구조를 가진 물체에선 오차가 누적될 수 있다. 또한 VQ‑VAE 코드북을 사전 학습하는 비용이 존재한다. 향후 연구에서는 다중 해상도 토큰화와 코드북 적응형 업데이트, 그리고 RGB‑only 상황에서도 동작 가능한 확장 모델을 탐색할 여지가 있다.

CoordAR: 하나의 레퍼런스로 보는 6D 포즈 추정, 토큰 기반 자동회귀 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기