스캔 순서 재고 파셜 링 스캔 비전 상태공간 모델
초록
본 논문은 비전 상태공간 모델(SSM)에서 이미지 토큰화를 위한 스캔 순서가 성능에 미치는 영향을 체계적으로 분석하고, 회전 강인성을 갖는 파셜 링 스캔(PRISMamba) 방식을 제안한다. concentric rings 로 이미지를 분할하고, 각 링 내부에서는 순서에 무관한 집계, 링 간에는 짧은 방사형 SSM을 통해 컨텍스트를 전달한다. 또한 부분 채널 필터링으로 연산량을 절감하면서 정확도와 처리량을 동시에 향상시킨다.
상세 분석
비전 SSM은 2차원 이미지 데이터를 1차원 토큰 시퀀스로 직렬화한 뒤, 선형 시간 복잡도의 순환 연산을 수행한다. 기존 연구에서는 raster, serpentine, diagonal 등 고정된 스캔 경로를 사용했으며, 이러한 경로는 수평·수직 플립에는 강인하지만 회전 변환 시 토큰 인덱스가 크게 재배열돼 공간 인접성이 깨진다. 저자들은 먼저 다양한 12가지 기본 스캔 패턴과 그 조합을 실험하여, 스캔 순서가 객체 연속성을 파괴하고, 특히 회전 시 인접 토큰이 물리적 이웃과 불일치하게 되는 현상을 정량화했다. 이러한 현상은 SSM의 짧은 메모리 창이 실제 이미지 구조를 제대로 포착하지 못하게 만들며, 결국 모델이 불필요한 복구 연산에 용량을 소모하게 만든다.
이를 해결하기 위해 제안된 파셜 링 스캔은 이미지 중심으로부터의 유클리드 거리를 기준으로 픽셀을 동심원 형태의 링으로 그룹화한다. 각 링 내부에서는 순서에 무관한 풀링(예: 평균 또는 가중합)으로 토큰을 집계해 순서 의존성을 제거하고, 링 간에는 짧은 방사형 SSM(예: 1~3 단계)만을 적용해 내부→외부 방향으로 컨텍스트를 전파한다. 이렇게 하면 회전 시에도 동일한 링 구성이 유지되므로 토큰 인덱스 재배열이 발생하지 않는다. 또한, 모든 채널을 동일하게 처리하지 않고, 학습 과정에서 가장 정보량이 높은 채널만을 링 경로에 할당하고 나머지는 경량 residual branch 로 전달하는 부분 채널 필터링(Partial Channel Filtering, PCF) 기법을 도입했다. PCF는 연산량을 약 20% 절감하면서도 중요한 특징 손실을 최소화한다.
실험 결과는 두드러진데, ImageNet‑1K에서 PRISMamba는 84.5% Top‑1 정확도와 3.9G FLOPs, A100 기준 3,054 img/s 를 기록해 기존 VMamba(82.6%, 5.6G FLOPs, 1,686 img/s)를 크게 앞선다. 회전 테스트에서는 고정 스캔이 1~2% 정확도 감소를 보이는 반면, PRISMamba는 거의 변동이 없었다. COCO 객체 검출·세그멘테이션에서도 FLOPs 대비 AP가 개선되었으며, 토큰 수는 기존과 동일해 메모리 사용량도 비슷했다. 이러한 결과는 스캔 순서 설계가 비전 SSM 성능에 핵심적인 하이퍼파라미터임을 실증하고, 회전 강인성을 자연스럽게 확보할 수 있는 구조적 접근법을 제시한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기