농작물 질병 분류를 위한 아키텍처 트레이드오프 탐색
본 논문은 실험실과 현장 이미지가 혼합된 대규모 벤치마크 AgriPath‑LF16을 구축하고, CNN, 대조형 비전‑언어 모델(VLM), 생성형 VLM 세 가지 패러다임을 동일 프로토콜로 비교한다. 실험 결과, CNN은 실험실 이미지에서 최고 정확도를 보이지만 도메인 전이 시 급격히 성능이 떨어진다. 대조형 VLM은 파라미터 효율성이 높으며 현장·실험실 모두에서 견고한 성능을 유지한다. 생성형 VLM은 가장 큰 도메인 회복력을 보이지만 텍스트 …
저자: Hamza Mooraj, George Pantazopoulos, Aless
AgriPath‑LF16은 기존 작물 질병 데이터베이스가 갖는 “실험실 편향”, “작물·질병 제한”, “도메인 불균형” 세 가지 문제를 동시에 해결하기 위해 설계된 벤치마크이다. 전체 111 307장의 이미지(실험실 ≈ 55 k, 현장 ≈ 56 k)는 16종 작물·41종 질병, 총 65개의 작물‑질병 조합을 포괄한다. 클래스당 이미지 수는 크게 차이나지만, 연구자는 균형을 맞춘 30 k 서브셋(AgriPath‑LF16‑30k)을 별도로 제공해, 실험 설계 시 클래스·도메인 편향을 최소화하였다. 데이터는 80/10/10 비율로 학습·검증·테스트로 분할했으며, 각 파트는 실험실·현장 이미지 비율을 동일하게 유지하도록 샘플링했다.
연구는 세 가지 모델 패러다임을 동일한 실험 프로토콜 아래 비교한다. 첫 번째는 전통적인 CNN, 여기서는 ImageNet‑프리트레인된 ResNet‑50을 사용하고, 초기 레이어를 고정한 채 최종 블록과 분류 헤드만 미세조정했다. 하이퍼파라미터 탐색은 배치 크기(16, 32, 64)와 학습률(1e‑4, 2e‑4, 5e‑4) 조합 9가지로 수행했으며, 검증 손실이 가장 낮은 조합을 최종 모델로 채택했다.
두 번째는 대조형 비전‑언어 모델(VLM)이다. SigLIP‑base(203 M)와 CLIP‑ViT‑L/14(427 M) 두 모델을 선택했으며, 제로샷과 선형 프로빙 두 방식으로 평가했다. 제로샷에서는 각 클래스에 대해 “<작물>의 <질병>” 형태의 템플릿을 3~5개 생성하고, 이미지와 텍스트 임베딩 사이 코사인 유사도로 가장 높은 클래스를 예측한다. 이 방식은 65개 세밀한 클래스 구분에 한계가 있어 F1가 0.15 이하에 머물렀다. 선형 프로빙에서는 사전학습된 이미지 인코더를 고정하고, 학습 데이터(전체, 실험실 전용, 현장 전용)에서 선형 분류기를 학습한다. 이때 배치 64, 학습률 0.001~0.01을 탐색했으며, 전체 데이터 학습 시 CLIP‑L/14가 F1 ≈ 0.91, SigLIP이 F1 ≈ 0.90을 기록했다. 도메인 전이 실험에서도 두 모델은 각각 현장·실험실 테스트에서 약 10 % 이하의 성능 저하를 보이며, CNN 대비 현저히 안정적인 전이 특성을 나타냈다.
세 번째는 생성형 VLM이다. Qwen2.5‑VL 3B·7B와 SmolVLM 500M을 선택했으며, LoRA(저랭크 어댑테이션)를 적용해 시각·언어 모듈을 동시에 미세조정했다. 프롬프트는 (1) 순수 지시(Pure), (2) 전체 클래스 리스트를 제공하는 컨텍스트(Context), (3) 네 개 후보 중 정답을 선택하도록 하는 다중 선택(MCQ) 세 가지를 실험했다. MCQ 방식은 파싱 성공률(PSR)을 크게 높였으며, 특히 Qwen2.5‑VL 7B는 PSR = 100 %에 근접하고 F1 ≈ 0.905를 달성했다. 생성형 VLM은 현장 전용 학습에서도 F1 ≈ 0.88~0.90을 유지해, 도메인 변동에 대한 회복력이 가장 높았다. 그러나 자유 텍스트 출력 특성상 파싱 오류가 발생하면 해당 샘플을 ‘false_parse’ 클래스로 처리해 F1가 급격히 낮아지는 현상이 관찰되었다. 또한 LoRA 미세조정 시 학습 비용이 증가하고, 추론 시 텍스트 디코딩 단계가 추가되어 실시간 시스템에 적용할 경우 연산량과 지연시간을 고려해야 한다.
성능 비교를 정리하면, 실험실 이미지에 한정된 환경에서는 CNN이 가장 높은 정확도(F1 ≈ 0.973)를 보이며, 파라미터 효율성도 뛰어나다. 그러나 현장 이미지로 전이할 경우 성능이 급격히 하락(≈95 % 감소)한다. 대조형 VLM은 파라미터가 더 많지만 선형 프로빙만으로도 CNN 수준의 정확도를 달성하고, 도메인 전이 시 성능 저하가 최소화된다. 생성형 VLM은 가장 큰 도메인 회복력을 제공하지만, 파싱 성공률과 추론 비용을 동시에 관리해야 한다.
논문은 이러한 실험 결과를 바탕으로 “모델 선택은 배포 환경의 이미지 획득 조건과 시스템 제약에 따라 달라져야 한다”는 실용적 가이드를 제시한다. 실험실·표준화된 촬영 환경에서는 경량 CNN이 비용 효율적이며, 현장·다양한 조명·배경 조건에서는 대조형 VLM이 파라미터 대비 높은 견고성을 제공한다. 가장 높은 정확도와 회복력을 동시에 원한다면 생성형 VLM을 고려하되, 파싱 로직과 추론 비용을 최적화하는 추가 설계가 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기