가우시안 인식 시간 스케일링 트랜스포머를 이용한 4D 포인트 클라우드 영상 표현

본 논문은 4D 포인트 클라우드 비디오에서 발생하는 ‘분포 불확실성’과 ‘시간 스케일 편향’ 두 가지 근본적인 왜곡을 동시에 보정하는 듀얼 인버리언스 프레임워크인 GATS를 제안한다. 핵심 모듈인 Uncertainty Guided Gaussian Convolution(UGGC)은 지역 가우시안 통계와 불확실성 게이팅을 통해 밀도 변화·노이즈·가림 현상에 강인한 이웃 집계를 수행하고, Temporal Scaling Attention(TSA)은 학…

저자: Jiayi Tian, Jiaze Wang

가우시안 인식 시간 스케일링 트랜스포머를 이용한 4D 포인트 클라우드 영상 표현
본 논문은 4D 포인트 클라우드 비디오, 즉 3차원 공간 좌표와 시간 축을 결합한 데이터 스트림을 효과적으로 처리하기 위한 새로운 백본 구조를 제안한다. 기존 연구들은 주로 3D 정적 포인트 클라우드에 초점을 맞추었으며, 동적 시퀀스를 다룰 때는 CNN 기반의 3D/4D 컨볼루션, voxelization, 혹은 Transformer 기반 전역 어텐션을 적용해 왔다. 그러나 이러한 접근법은 두 가지 근본적인 한계에 직면한다. 첫째, 포인트 클라우드의 불규칙하고 밀도 변동이 큰 특성 때문에 유클리드 거리만을 이용한 전통적인 컨볼루션은 지역 형태를 충분히 포착하지 못한다. 이는 노이즈, 가림, 희소 영역에서 특징 추출이 불안정해지는 원인이 된다. 둘째, 비디오와 달리 프레임 레이트가 일정하지 않거나 샘플링 전략이 다양해질 경우, 동일한 물리적 움직임이 서로 다른 시간 간격으로 이산화되어 상대 속도 추정에 편향이 발생한다. 이러한 ‘시간 스케일 편향’은 시공간 일관성을 해치고, 특히 행동 인식이나 동적 씬 파싱과 같은 과제에서 성능 저하를 초래한다. GATS(Gaussian Aware Temporal Scaling)는 위 두 문제를 동시에 해결하기 위해 ‘Dual Invariant’ 설계를 채택한다. 전체 파이프라인은 크게 두 모듈, UGGC와 TSA로 구성된다. 1. **Uncertainty Guided Gaussian Convolution (UGGC)** - **지역 가우시안 추정**: 각 중심 포인트 x_{t,i}에 대해 이웃 N(i,t)를 정의하고, 평균 µ_{i,t}와 공분산 Σ_{i,t}를 계산한다. 평균은 지역 중심을, 공분산은 밀도와 형태의 이방성을 포착한다. - **가우시안 가중치 컨볼루션**: 기존의 거리 기반 커널 k(·)에 가우시안 확률 밀도 exp(−½ (x−µ)ᵀ Σ⁻¹ (x−µ)) 를 곱해 새로운 가중치 w(x)를 만든다. 이를 통해 이웃이 형태적으로 유사할수록 높은 가중치를 부여한다. 다중 스케일 σ (0.5r, r, 3r)를 사용해 다양한 밀도 구간에 대응한다. - **불확실성 게이팅**: 공분산 행렬의 조건수(cond) 혹은 고유값 스펙트럼을 불확실성 지표로 활용한다. 불확실성이 높을 경우, 보조 브랜치(예: 더 큰 수용 영역을 가진 컨볼루션)와 표준 브랜치를 α 비율로 혼합한다. α = φ(cond(Σ)) 로 정의되며, φ는 불확실성을

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기