LaSSM: 로컬 집합과 상태공간 모델을 활용한 효율적인 3D 인스턴스 세그멘테이션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LaSSM은 슈퍼포인트 기반의 계층적 의미‑공간 쿼리 초기화와 좌표‑가이드 상태공간 모델(SSM) 디코더를 결합해, 3D 포인트 클라우드 인스턴스 세그멘테이션에서 높은 정확도와 1/3 수준의 FLOPs 감소를 동시에 달성한다. 로컬 어그리게이션과 Hilbert 곡선 기반 이중 경로 SSM 블록을 통해 쿼리 간 의존성을 효율적으로 모델링하고, 불필요한 연산을 최소화한다.

상세 분석

본 논문은 최근 트렌드인 쿼리 기반 3D 인스턴스 세그멘테이션의 두 가지 근본적인 한계—쿼리 초기화 문제와 디코더의 고비용 어텐션 연산—를 해결하고자 한다. 첫 번째 기여는 “계층적 의미‑공간 쿼리 초기화기”이다. 기존 방법은 FPS(Farthest Point Sampling)나 학습 가능한 고정 쿼리를 사용했지만, 포인트 클라우드의 희소성 때문에 중요한 객체를 놓치거나 비효율적인 위치에 쿼리를 배치한다. LaSSM은 먼저 슈퍼포인트(점군을 의미‑유사도 기반으로 클러스터링한 단위)에서 의미적 확신 점수를 얻고, 이를 기반으로 상위 r 비율을 선택한다. 이후 선택된 슈퍼포인트에 다시 FPS를 적용해 공간적 균형을 맞추어 q개의 최종 쿼리를 만든다. 이렇게 하면 의미와 공간 두 축을 동시에 고려해 장면 전체를 포괄하면서도 중복을 최소한다.

두 번째 핵심은 “좌표‑가이드 상태공간 모델 디코더”이다. 전통적인 트랜스포머 디코더는 쿼리‑키‑밸류 어텐션을 전 레이어에 걸쳐 수행해 O(N²) 복잡도를 초래한다. LaSSM은 이를 대체하기 위해 두 단계 로컬 어그리게이션과 SSM 블록을 도입한다. 로컬 어그리게이션은 k‑NN을 이용해 각 쿼리 주변의 슈퍼포인트 특징을 집계함으로써, 기하학적으로 일관된 지역 정보를 쿼리 내용에 직접 주입한다. 이는 불필요한 전역 연산을 억제하고, 노이즈가 많은 포인트를 배제한다.

SSM 블록은 연속 시스템의 상태 전이 방정식을 이산화한 형태로, 선형 컨볼루션 커널 K를 통해 시퀀스(여기서는 쿼리 집합) 전체에 걸친 장기 의존성을 효율적으로 캡처한다. 특히 LaSSM은 쿼리 좌표를 Hilbert 공간곡선에 따라 정렬해 1‑D 시퀀스로 변환하고, 두 개의 병렬 경로(좌표와 내용)에서 각각 SSM을 적용한다. 이렇게 하면 순서에 민감한 트랜스포머와 달리 좌표 정렬이 깨지더라도 SSM이 내부 상태를 통해 관계를 복원한다. 또한, 디코더 각 레이어마다 중심 회귀 모듈을 두어 쿼리 좌표를 내용 업데이트와 동기화시켜, 점진적인 인스턴스 경계 정밀화를 가능하게 한다.

효율성 측면에서 LaSSM은 전체 디코더가 선형 복잡도 O(N)만을 요구한다. 실험 결과 ScanNet++ V2 벤치마크에서 기존 최첨단 방법보다 mAP 2.5%p, AP₅₀ 2.3%p 향상시키면서 FLOPs를 1/3 수준으로 감소시켰다. 또한 ScanNet V2, ScanNet200, S3DIS, ScanNet++ V1에서도 경쟁력 있는 성능을 보이며, 메모리 사용량도 크게 절감한다. Ablation 연구를 통해 (1) 의미‑공간 초기화, (2) 로컬 어그리게이션, (3) 이중 경로 SSM 각각이 성능 향상에 기여함을 입증하였다.

요약하면, LaSSM은 의미와 공간을 동시에 고려한 쿼리 초기화와, 좌표 정보를 직접 활용한 상태공간 모델 기반 디코더를 결합함으로써, 고성능·고효율 3D 인스턴스 세그멘테이션을 실현한다.

LaSSM: 로컬 집합과 상태공간 모델을 활용한 효율적인 3D 인스턴스 세그멘테이션

초록

상세 분석

댓글 및 학술 토론

의견 남기기