실시간 우주선 자세 추정을 위한 경량 비전 트랜스포머 FastPose‑ViT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
FastPose‑ViT는 Vision Transformer 기반의 직접 회귀 모델로, 단일 이미지에서 6DoF 우주선 자세를 실시간으로 추정한다. Bounding‑box 로 크롭한 이미지에 대해 “표면 회전”(apparent rotation) 개념을 도입해 회전과 평행이동을 정규화된 중간 변수로 예측하고, 프로젝트 기하학을 이용해 전체 이미지 좌표계로 복원한다. SPEED 데이터셋에서 비‑PnP 방법 중 최고 성능을 기록했으며, FP16 양자화 후 NVIDIA Jetson Orin Nano에서 75 ms(단일 프레임)·33 FPS(비동기) 실시간 처리가 가능함을 보였다.
상세 분석
본 논문은 기존의 PnP 기반 하이브리드 파이프라인이 갖는 반복 연산과 높은 연산량 문제를 해결하고자, Vision Transformer(ViT)를 활용한 단일 패스 회귀 모델을 설계하였다. 핵심 아이디어는 (1) 크롭된 이미지에 대해 “표면 회전”(apparent rotation)이라는 중간 회전 표현을 예측하고, (2) 이를 실제 회전으로 변환하는 폐쇄형 보정식을 도입함으로써, 카메라 시점에 따른 투시 왜곡을 학습 부담에서 분리한다는 점이다.
1. 모델 구조
ViT‑B (Base) 백본을 사용하고, 입력은 객체 검출기(LW‑DETR)에서 얻은 바운딩 박스로 크롭·리사이즈된 패치이다. 기존 분류용
댓글 및 학술 토론
Loading comments...
의견 남기기