농업 이미지 세그멘테이션을 위한 경량 DAS SK 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고해상도 농업 영상의 픽셀‑단위 분류를 목표로, Dual Atrous Separable Convolution(DAS‑Conv)과 Selective Kernel Convolution(SK‑Conv)을 결합한 DAS‑SK 모듈을 제안한다. MobileNetV3‑Large와 EfficientNet‑B3를 백본으로 사용한 Dual‑Backbone 구조와 강화된 ASPP를 통해 다중 스케일 특징을 효율적으로 학습한다. LandCover.ai, VDD, PhenoBench 3개 데이터셋에서 기존 CNN·Transformer·Hybrid 모델을 능가하면서 파라미터와 GFLOPs를 각각 21배·19배 절감한다.

상세 분석

DAS‑SK는 두 가지 핵심 아이디어를 결합한다. 첫째, DAS‑Conv은 atrous(공극) 확장을 위한 두 병렬 경로—채널 혼합에 효율적인 depthwise separable atrous와 공간 컨텍스트 확대를 위한 표준 atrous—를 제공한다. 이 두 경로의 출력은 채널 차원에서 concat 후 SK‑Conv에 입력되며, SK‑Conv은 여러 수용 영역(다중 dilation)에서 얻은 특징 맵에 대해 동적 채널‑가중치를 학습한다. 이렇게 하면 이미지 내 다양한 규모의 작물 형태와 잡초, 병변 등을 동시에 포착하면서도 불필요한 연산을 최소화한다.
둘째, 강화된 ASPP는 1×1 Conv로 차원 축소 후, dilation rate가 {4,8,12,18,22,26}인 여섯 개의 DAS‑SKConv 블록과 가로·세로 스트립 풀링을 병렬로 배치한다. 이는 지역적 세부 정보와 장거리 구조적 패턴을 동시에 인코딩한다는 점에서 기존 DeepLabV3‑ASPP보다 표현력이 뛰어나다.
백본은 MobileNetV3‑Large(2.894 M 파라미터)와 EfficientNet‑B3의 앞 6개 블록을 축소한 형태(2.256 M 파라미터)를 조합해, 저해상도 특징부터 고해상도 세부까지 다층 정보를 제공한다. 두 백본의 출력은 960채널로 합쳐진 뒤 ASPP에 투입되고, 디코더는 단계별 skip connection과 separable Conv를 이용해 점진적으로 복원한다.
학습에서는 AdamW optimizer와 cosine annealing 스케줄을 사용하고, mIoU와 “Efficiency”(ΔmIoU·log(Params)/GFLOPs) 지표로 성능을 평가한다. 실험 결과, LandCover.ai에서 mIoU 78.4 %·Params 5.1 M, VDD에서 mIoU 71.2 %·Params 5.3 M, PhenoBench에서 mIoU 69.5 %·Params 5.2 M를 기록했으며, 가장 강력한 Transformer 기반 모델 대비 파라미터는 21배, FLOPs는 19배 감소했다. Ablation study는 DAS‑Conv만 사용했을 때보다 DAS‑SKConv이 1.8 %~2.3 % mIoU 향상을 제공함을 보여준다. 전체적으로 DAS‑SK는 정확도·효율성·경량성 삼박자를 만족하는 설계로, UAV·Edge 디바이스 실시간 적용에 적합하다.

농업 이미지 세그멘테이션을 위한 경량 DAS SK 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기