실시간 의미분할을 위한 주의집중 경량 네트워크 AASeg
AASeg은 경량화된 공간·채널 주의 모듈과 다중스케일 컨텍스트(MSC) 모듈을 결합해 실시간 의미분할에서 높은 mIoU와 200 FPS 이상의 초고속을 동시에 달성한다. Cityscapes, ADE20K, CamVid에서 기존 실시간 모델들을 능가하는 성능을 보이며, 백본 없이도 효율적인 특징 추출이 가능함을 입증한다.
저자: Abhinav Sagar
본 논문은 실시간 의미분할을 목표로 하는 새로운 경량 네트워크 AASeg을 제안한다. 기존 실시간 모델들은 주로 인코더‑디코더 구조의 단순화, depth‑wise separable convolution, 혹은 멀티‑브랜치 설계에 의존해 속도를 높였지만, 그 과정에서 세밀한 경계 표현과 복잡한 장면에 대한 컨텍스트 파악 능력이 저하되는 문제를 안고 있었다. AASeg은 이러한 문제를 해결하기 위해 세 가지 핵심 모듈을 설계하였다.
1. **Spatial Attention (SA) 모듈**
- 입력 피처맵을 1×1 컨볼루션 두 번과 ReLU, 시그모이드 순으로 처리해 공간적 중요도 마스크를 생성한다.
- 마스크는 원본 피처와 element‑wise 곱해져, 중요한 위치는 강조되고 불필요한 영역은 억제된다.
- 연산량이 적고, 채널 차원을 유지하면서도 공간적 종속성을 효과적으로 모델링한다.
2. **Channel Attention (CA) 모듈**
- 전역 평균 풀링으로 채널별 통계량을 추출하고, 1×1 컨볼루션 두 단계와 시그모이드를 통해 채널 가중치를 학습한다.
- 이는 Squeeze‑Excitation과 유사하지만, 별도의 비선형 변환을 최소화해 경량성을 유지한다.
3. **Multi‑Scale Context (MSC) 모듈**
- 1×1, 3×3, 5×5 커널을 병렬 적용해 다양한 수용 영역을 동시에 확보한다.
- 이후 3, 6, 12의 팽창률을 갖는 dilated convolution을 순차적으로 쌓아 전역 컨텍스트를 포착한다.
- 최종적으로 차원 축소(2048→256)를 수행해 메모리와 FLOPs를 제한한다.
이 세 모듈의 출력은 concat 연산으로 결합된 뒤, 각각 SA·CA·MSC를 독립적으로 적용하고 element‑wise 곱을 수행한다. 마지막에 다시 concat해 최종 피처를 만든 뒤, 여러 단계의 ConvBlock을 거쳐 고해상도 segmentation map을 출력한다.
학습 과정에서는 기본 교차 엔트로피 손실(L_ce)에 더해 클래스 어텐션 손실(L_cls)과 보조 손실(L_aux)을 가중합한다. λ₁=1, λ₂=λ₃=0.5 로 설정해 어텐션 손실이 과도하게 모델을 지배하지 않도록 균형을 맞춘다. 최적화는 SGD(모멘텀 0.9, weight decay 5e‑4)로 20K iteration을 수행하고, poly learning rate 스케줄을 적용한다. 데이터 증강으로는 랜덤 수평 뒤집기, 스케일 변환(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기