경량화된 CNN Mamba 기반 의미분할 네트워크 ECMNet
초록
ECMNet은 CNN과 최신 시계열 모델인 Mamba를 결합한 경량 구조로, Enhanced Dual‑Attention Block(EDAB)과 Multi‑Scale Attention Unit(MSAU), 그리고 Mamba 기반 Feature Fusion Module(FFM)을 통해 전역 컨텍스트와 지역 디테일을 동시에 학습한다. Cityscapes와 CamVid에서 각각 70.6 %와 73.6 %의 mIoU를 달성했으며, 파라미터는 0.87 M, FLOPs는 8.27 G에 불과해 실시간 모바일 및 임베디드 환경에 적합하다.
상세 분석
ECMNet은 기존 CNN‑Transformer 혼합 방식이 갖는 고비용 self‑attention 문제를 피하고, Mamba의 선형 복잡도 State‑Space Model(SSM)을 활용해 전역 종속성을 효율적으로 모델링한다. 핵심 설계는 세 가지 모듈로 구분된다. 첫째, Enhanced Dual‑Attention Block(EDAB)은 1×1 압축 후 3×1·1×3 분리 컨볼루션과 atrous 컨볼루션을 병렬로 배치해 지역·전역 정보를 각각 추출하고, Dual‑Direction Attention과 Channel Attention을 통해 다차원 어텐션 매트릭스를 생성한다. 이 구조는 파라미터를 절반으로 감소시키면서도 receptive field를 넓혀, 저해상도 특징에서도 의미 있는 컨텍스트를 포착한다. 둘째, Multi‑Scale Attention Unit(MSAU)은 두 가지 경로로 동작한다. 공간 스케일 경로에서는 3×3, 5×5, 7×7 depth‑separable 컨볼루션을 병렬 적용해 다중 스케일 특징을 얻고, adaptive average pooling과 7×7 컨볼루션을 결합해 공간 어텐션 맵을 만든 뒤 sigmoid로 정규화한다. 채널 경로에서는 avg‑pool와 max‑pool을 각각 1×1 컨볼루션에 통과시켜 채널 통계 벡터를 생성하고, 두 경로를 element‑wise 곱한 뒤 residual 연결을 통해 입력에 더한다. 이 설계는 저층의 세밀한 디테일과 고층의 풍부한 의미 정보를 효과적으로 융합한다. 셋째, Feature Fusion Module(FFM)은 Mamba의 2D‑Selective‑Scan(SS2D) 블록을 도입해 다중 스케일 특징을 시퀀스 형태로 변환하고, 선형 변환과 2D 컨볼루션을 순차적으로 적용한다. 이후 Feed‑Forward Network(FFN)으로 비선형 변환을 수행해 중요한 채널을 강조하고 불필요한 정보를 억제한다. 전체 아키텍처는 U‑shape encoder‑decoder 구조에 세 개의 장거리 스킵 연결을 두어, 각 스킵에 MSAU를 삽입함으로써 피라미드형 특징 전달을 강화한다. 실험 결과, Ablation Study에서 EDAB만 적용했을 때 mIoU 69.92 %였으나, 순차적으로 Long Connection, MSAU, FFM을 추가하면서 각각 0.61, 0.92, 1.11 %p씩 상승, 최종적으로 73.62 %까지 끌어올렸다. 파라미터와 FLOPs는 기존 경량 모델(NDNet, CGNet 등) 대비 크게 증가하지 않으며, Cityscapes에서 0.87 M 파라미터로 70.6 % mIoU를 달성, LBN‑AA(6.2 M 파라미터)보다 효율성이 뛰어나다. 따라서 ECMNet은 경량화와 정확도 사이의 트레이드‑오프를 성공적으로 해결한 설계라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기