vGamba: 효율적인 장거리 의존성 모델링을 위한 시각적 병목 구조
초록
vGamba는 기존 CNN 병목에 3×3 컨볼루션을 대신해 단일 경량 SSM 블록인 Gamba 셀을 삽입한 하이브리드 백본이다. 2D 위치 인코딩과 Attentive Spatial Context(ASC) 모듈을 결합해 장거리 의존성을 효율적으로 학습한다. 실험 결과, VMamba·ViM 등 SSM 기반 모델과 비슷하거나 높은 정확도를 유지하면서, BotNet 대비 2배 이상 빠르고 GPU 메모리 사용량을 94% 절감한다.
상세 분석
본 논문은 시각 인식에서 장거리 의존성(Long‑Range Dependency, LRD) 확보가 핵심 과제임을 재확인하고, 기존 CNN‑기반 백본이 갖는 국소 수용 영역(receptive field) 한계를 지적한다. Transformer 기반 Vision 모델은 Self‑Attention을 통해 전역 컨텍스트를 포착하지만, 시퀀스 길이에 대해 O(M²) 복잡도로 메모리·연산 부담이 크다. 최근 State‑Space Model(SSM)인 Mamba가 1‑D 시계열에서 선형 복잡도로 LRD를 효율적으로 처리한다는 점이 주목받았으며, 이를 이미지에 적용하려는 시도가 VMamba와 ViM에서 나타난다. 그러나 두 모델 모두 2‑D 구조에 맞추기 위해 cross‑scan·merge 혹은 양방향 복제 등 다중 SSM 블록을 필요로 하며, 이는 메모리·파라미터 오버헤드를 급격히 증가시켜 CNN 병목에 바로 대체하기 어렵다.
vGamba는 이러한 문제점을 해결하기 위해 “Gamba Cell”이라는 단일 SSM 블록을 설계한다. 핵심 아이디어는 (1) 입력 특성을 B×C×H×W 형태에서 B×(HW)×C 시퀀스로 flatten한 뒤, 2‑D Relative Positional Embedding(RPE)을 추가해 공간 정보를 명시적으로 제공한다. RPE는 행·열 별 위치 인코딩을 합산한 형태로, SSM이 순차적으로 스캔하면서도 2‑D 구조를 인식하도록 돕는다. (2) Mamba 블록 자체는 기존 Mamba와 동일하게 동적 B·C 파라미터와 Selective Scan을 사용해 연산량을 O(M)으로 유지한다. (3) SSM의 인과적(causal) 스캔으로 인한 양방향 정보 손실을 보완하기 위해 “Attentive Spatial Context”(ASC) 모듈을 도입한다. ASC는 height와 width 축을 각각 풀링한 후 채널‑별 가중치 α와 축‑별 bias(b_h, b_w)를 학습해, 수평·수직 정보를 비대칭적으로 결합한다. 이는 SSM이 포착한 전역 의존성에 미세한 지역 정보를 재주입함으로써, 순수 SSM만 사용할 때 발생할 수 있는 공간 해상도 저하를 방지한다.
메모리 측면에서 Gamba Cell은 IO‑aware selective scan 구현을 채택해, 상태 업데이트를 SRAM 내부에서 수행하고 출력만 메모리에 기록한다. 따라서 메모리 대역폭 요구가 O(B·M·E + E·N) 수준으로 크게 감소한다. 연산 복잡도 분석에서는 Self‑Attention이 4MD² + 2M²D, CNN이 M·K²·D²에 비해 SSM은 3M·(2D)·N + M·(2D)·N으로 선형 스케일을 보인다. 실험에서는 2048×2048 고해상도 입력에 대해 BotNet 대비 2.07배 빠르고, 피크 GPU 메모리를 1.03 GB로 93.8% 절감하였다.
성능 평가에서는 ImageNet‑1K 분류, COCO 객체 검출, ADE20K 세그멘테이션 등 다양한 다운스트림 작업에서 VMamba·ViM과 동등하거나 약간 높은 Top‑1 정확도(예: ImageNet에서 +0.6%~+1.8%)를 기록하면서 파라미터와 FLOPs는 각각 1.4 M·0.3 G 감소했다. Ablation 실험은 (i) RPE 없이 단일 SSM만 적용했을 때 정확도 하락, (ii) ASC 없이 RPE만 사용했을 때 지역 세부 정보 손실, (iii) SSM 복제 수를 늘렸을 때 메모리·연산 비용 급증을 확인한다. 이러한 결과는 Gamba Cell이 “단일 SSM + 2D 위치 인코딩 + 경량 ASC”라는 최소 구성으로도 충분히 강력한 전역·국소 혼합 컨텍스트를 제공한다는 것을 입증한다.
결론적으로, vGamba는 기존 CNN 병목 구조에 최소한의 변경만으로 SSM 기반 전역 의존성 모델링을 도입함으로써, 고해상도 비전 작업에서 실용적인 메모리·연산 효율성을 달성한다. 이는 SSM이 Vision Transformer를 대체하거나 보완할 수 있는 새로운 설계 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기