SGIFormer 의미‑가이드와 기하‑강화 인터리빙 트랜스포머 기반 3D 인스턴스 분할
초록
SGIFormer는 voxel‑단위 의미 예측을 활용해 장면 인식 쿼리를 생성하고, 기하 정보를 점진적으로 삽입하는 인터리빙 트랜스포머 디코더로 쿼리와 전역 특징을 교차 업데이트한다. 이를 통해 대규모 3D 씬에서도 높은 정확도와 효율성을 동시에 달성한다.
상세 분석
본 논문은 3D 포인트 클라우드 인스턴스 분할에서 기존 트랜스포머 기반 방법이 겪는 두 가지 핵심 문제, 즉 인스턴스 쿼리 초기화의 불안정성 및 깊은 스택 레이어에 대한 과도한 의존성을 해결하고자 한다. 첫 번째 기여인 Semantic‑guided Mix Query(SMQ) 초기화는 백본이 추출한 voxel‑wise 특징에 대해 의미 분류 브랜치를 추가하고, 예측된 의미 점수를 기반으로 배경을 제외한 고신뢰도 voxel을 선택한다. 선택된 voxel 특징에 선형 변환 ψ를 적용해 가중치 행렬 W를 만든 뒤, 이를 기존의 learnable query와 결합해 전체 쿼리 집합 Q를 구성한다. 이 과정은 “scene‑aware” 쿼리를 자동으로 생성함으로써 파라미터 수를 크게 늘리지 않으면서도 초기화 품질을 크게 향상시킨다.
두 번째 핵심인 Geometric‑enhanced Interleaving Transformer(GIT) 디코더는 기존의 일방향 쿼리‑to‑feature 업데이트와 달리, 쿼리와 전역 특징을 교차로 교정한다. 구체적으로, 각 디코더 레이어에서 (1) 쿼리 자체를 self‑attention으로 정제하고, (2) 정제된 쿼리를 이용해 전역 voxel 특징에 cross‑attention을 수행한다. 여기서 좌표 임베딩은 원본 좌표와 일정량 이동된 좌표를 모두 포함하는 “shifted point embedding” 형태로 삽입되어, 기하적 편향(bias) 추정을 보조 과제로 설정한다. 이러한 설계는 attention 연산의 quadratic 비용을 완화하면서도, 작은 객체나 경계부의 미세한 기하 정보를 보존한다.
효율성 측면에서 SMQ는 voxel‑level 의미 예측만으로 쿼리를 생성하므로 FPS 기반 샘플링이 초래하는 중복 및 배경 포함 문제를 회피한다. GIT는 레이어 수를 기존 6~8개에서 4개 수준으로 감소시켜도 성능 저하가 거의 없으며, 전체 파라미터 수와 메모리 사용량이 크게 줄어든다. 실험 결과는 ScanNet V2, ScanNet200, ScanNet++ 등 세 가지 벤치마크에서 AP₅₀ 기준 최고 성능을 기록함과 동시에, 경량 버전(SGIFormer‑Lite)도 경쟁 모델 대비 우수한 정확도‑효율 트레이드오프를 보여준다.
한계점으로는 의미 브랜치가 voxel‑wise 라벨링 정확도에 크게 의존한다는 점과, 매우 희소한 객체가 존재하는 씬에서는 여전히 쿼리 커버리지가 부족할 수 있다는 점을 들 수 있다. 향후 연구에서는 멀티‑스케일 의미 피드백 및 동적 쿼리 재생성 메커니즘을 도입해 이러한 약점을 보완할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기