복합 환경에서 사과 잎 병 인식을 위한 CTCLIP 다중모달 융합 프레임워크

초록

CTCLIP은 CNN과 Vision Transformer를 병렬로 활용해 국부 병변 디테일과 전역 구조 정보를 동시에 추출하고, Adaptive Feature Fusion Module(AFFM)로 동적으로 결합한다. 또한 사전 학습된 CLIP 모델을 이용해 이미지와 질병 텍스트 설명을 정렬함으로써 복잡한 배경과 소수 샷 상황에서도 높은 인식 정확도(공개 데이터셋 97.38%, 자체 구축 데이터셋 96.12%)를 달성한다.

상세 요약

본 논문은 기존 CNN 기반 다중스케일 피처 융합이 지역 병변과 전체 잎 형태 사이의 관계를 충분히 포착하지 못한다는 점을 지적한다. 이를 해결하기 위해 저자는 세 가지 핵심 요소를 설계하였다. 첫째, 로컬 특징 추출을 담당하는 ResNet‑계열 CNN과 전역 관계 모델링을 수행하는 Vision Transformer(ViT)를 독립적인 브랜치로 배치함으로써 각각의 강점을 최대한 활용한다. CNN은 작은 병변, 색상 변이, 텍스처 등 미세 정보를 고해상도로 보존하고, ViT는 패치 간 자기‑어텐션을 통해 병변의 위치·분포와 잎맥 구조 등 전역적인 패턴을 학습한다. 둘째, 두 브랜치에서 나온 피처를 Adaptive Feature Fusion Module에 입력한다. AFFM은 채널‑별 가중치를 동적으로 학습하는 스케일‑어텐션 메커니즘과, 공간‑별 어텐션을 결합한 하이브리드 구조로, 특정 이미지에서는 로컬 피처가, 다른 경우에는 전역 피처가 더 큰 비중을 차지하도록 자동 조정한다. 이는 병변 형태가 다양하고, 배경 잡음이 심한 실제 농업 현장에서 피처 간 불균형을 완화한다. 셋째, 멀티모달 학습 단계에서 CLIP의 이미지‑텍스트 정렬 능력을 전이한다. 사전 학습된 CLIP 가중치를 초기화하고, 질병 라벨을 자연어 설명(예: “사과 잎에 검은 반점이 퍼져 있다”)으로 변환한 텍스트와 함께 학습함으로써 시각 피처와 의미 피처가 공동 임베딩 공간에 매핑된다. 이 과정은 특히 라벨이 적은 소수 샷 상황에서 텍스트 정보가 시각 피처를 보강해 일반화 성능을 크게 끌어올린다. 실험 결과는 공개 데이터셋과 자체 구축 데이터셋 모두에서 기존 CNN‑only, ViT‑only, 그리고 기존 멀티스케일 융합 모델을 능가함을 보여준다. 특히 복잡한 조명·그림자·배경 잡음이 존재하는 이미지에서 정확도 격차가 두드러지며, 이는 AFFM과 CLIP 기반 텍스트 정렬이 각각 로컬·전역 피처 균형과 의미적 보강을 제공한 결과로 해석할 수 있다. 전체적으로 본 연구는 농업 이미지 분석에 Transformer와 멀티모달 사전 학습 모델을 효과적으로 접목시킨 사례로, 향후 다양한 작물·병리학 분야에 확장 가능한 설계 원칙을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)