현장 병변 레벨 식물 잎 질병 탐지를 위한 트랜스포머‑컨볼루션 하이브리드 프레임워크 TCLeaf‑Net

현장 병변 레벨 식물 잎 질병 탐지를 위한 트랜스포머‑컨볼루션 하이브리드 프레임워크 TCLeaf‑Net
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 복잡한 현장 배경과 다양한 병변 크기·도메인 변화를 극복하기 위해, 전역 컨텍스트와 지역 텍스처를 동시에 학습하는 트랜스포머‑컨볼루션 하이브리드 검출기 TCLeaf‑Net을 제안한다. 또한 일·현장 조건을 모두 포함한 고품질 병변‑레벨 데이터셋 Daylily‑Leaf(1,746 이미지, 7,839 병변)를 공개하고, 제안 모델이 기존 YOLO·RT‑DETR 계열 대비 mAP@50 5.4%p 상승(78.2%)과 연산·메모리 효율성을 동시에 달성함을 실험적으로 입증한다.

상세 분석

TCLeaf‑Net은 크게 세 부분으로 구성된다. 첫 번째는 Transformer‑Convolution Module(TCM)으로, 전역 정보를 담당하는 Efficient Attention(EA) 기반의 글로벌 어텐션(GAM)과 지역 정보를 담당하는 Convolution‑BatchNorm‑ReLU(Local‑Attention Module, LAM)를 병렬로 결합한 Triple‑Branch 구조(TCL)를 네 번 쌓아 전역‑지역 특성을 동시에 학습한다. 이 설계는 순수 Transformer가 갖는 “diffuse‑attention” 문제를 완화하고, 복잡한 현장 배경에서 비잎 영역을 효과적으로 억제한다. 두 번째는 Raw‑Scale Feature Recalling and Sampling(RSFRS) 블록이다. 기존 비중첩 패치 임베딩(OPE)과 달리 Small‑Step Overlapping Patch Embedding(SSOPE)를 3×3 stride‑2 커널로 적용해 공간 연속성을 유지하고, RSFRS는 3×3 stride‑2 Conv와 1×1 Conv를 이용한 bilinear up‑sampling을 결합해 다운샘플링 과정에서 손실되는 미세 텍스처를 복원한다. 이는 특히 작은 병변을 놓치기 쉬운 고해상도 정보를 보존한다는 점에서 의미가 크다. 세 번째는 Deformable Alignment Block with FPN(DFPN)이다. 기존 FPN이 겪는 다중 스케일 피처 정렬 오류를 보완하기 위해 Deformable Convolution 기반의 오프셋 예측을 도입하고, Multi‑Receptive‑Field Perception(MRFP) 모듈을 통해 다양한 수용 영역을 동시에 고려한다. 결과적으로 작은 병변부터 큰 병변까지 일관된 특징 정렬이 이루어져, 다중 스케일 융합 효율이 크게 향상된다. 전체 파이프라인은 640×640 입력을 SSOPE → RSFRS → TCM → RSFRS → SPPF → DFPN 순으로 처리하고, 최종 디코플드 헤드에서 클래스와 바운딩 박스를 별도 예측한다. 실험에서는 Daylily‑Leaf 인‑필드(split)에서 baseline 대비 mAP@50 5.4%p 상승, FLOPs 7.5 GFLOPs 감소, GPU 메모리 8.7% 절감 효과를 보였으며, PlantDoc, Tomato‑Leaf, Rice‑Leaf 등 외부 데이터셋에서도 경쟁 모델보다 우수한 Precision·Recall을 기록했다. Ablation 연구에서는 TCM이 없을 경우 배경 오탐이 급증하고, RSFRS를 제거하면 작은 병변 검출률이 12%p 이하로 떨어지는 등 각 모듈의 기여도가 정량적으로 입증되었다. 전반적으로 TCLeaf‑Net은 전역‑지역 어텐션의 균형, 고해상도 피처 보존, 다중 스케일 정렬이라는 세 가지 핵심 문제를 동시에 해결함으로써 현장 병변 레벨 식물 질병 탐지에 최적화된 솔루션을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기