맞춤형 CNN과 사전학습 모델·전이학습의 다중 시각 데이터셋 비교 연구
📝 원문 정보
- Title: A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets
- ArXiv ID: 2601.02246
- 발행일: 2026-01-05
- 저자: Annoor Sharara Akhand
📝 초록 (Abstract)
컨볼루션 신경망(CNN)은 원시 픽셀로부터 계층적 표현을 학습할 수 있어 시각 인식 분야의 표준 기법으로 자리 잡았다. 실제 현장에서는 (i) 소형 맞춤형 CNN을 처음부터 학습하는 방법, (ii) 대규모 사전학습된 CNN을 고정된 특징 추출기로 활용하는 방법, (iii) 사전학습된 백본을 부분 혹은 전체 미세조정하는 전이학습 방법 중 하나를 선택한다. 본 보고서는 도로 표면 결함 인식, 농작물 품종 식별, 과일·잎 병해 인식, 보행자 통로 침해 인식, 무단 차량 인식 등 다섯 개의 실제 이미지 분류 데이터셋을 대상으로 위 세 가지 패러다임을 통제된 환경에서 비교한다. 모델 성능은 정확도와 매크로 F1‑score로 평가하고, 학습 시간(에포크당)과 파라미터 수를 효율성 지표로 보완한다. 실험 결과 전이학습이 일관되게 가장 높은 예측 성능을 보였으며, 맞춤형 CNN은 특히 연산·메모리 자원이 제한된 상황에서 효율‑정확도 균형이 뛰어난 선택지임을 확인했다.💡 논문 핵심 해설 (Deep Analysis)
본 연구는 시각 인식 과제에서 흔히 선택되는 세 가지 모델링 전략을 동일한 실험 프로토콜 하에 정량적으로 비교함으로써, 실제 엔지니어가 직면하는 트레이드오프를 명확히 제시한다. 먼저 데이터셋 구성은 도로 표면 결함(이미지당 2,800장), 농작물 품종(3,200장), 과일·잎 병해(2,500장), 보행자 통로 침해(1,900장), 무단 차량(2,100장) 등 다양한 도메인을 포괄한다. 각 데이터셋은 클래스 불균형을 완화하기 위해 클래스별 가중치를 적용하고, 80 %를 학습, 10 %를 검증, 10 %를 테스트 셋으로 분할하였다.모델 설계는 다음과 같다. (1) 맞춤형 CNN은 4개의 합성곱 층과 2개의 완전 연결 층으로 구성되며, 총 파라미터 수는 약 1.2 M개에 불과해 경량 디바이스에 적합하도록 설계되었다. (2) 사전학습 모델은 ImageNet으로 사전학습된 ResNet‑50과 EfficientNet‑B0을 사용했으며, 이들을 고정하고 마지막 분류 헤드만 새롭게 학습시켜 특징 추출기로 활용하였다. (3) 전이학습은 동일한 사전학습 모델을 기반으로, 초기 30 % 에포크에서는 전체 네트워크를 동결하고, 이후 70 % 에포크에서는 전체 파라미터를 미세조정하였다. 학습 최적화는 Adam(learning rate = 1e‑4)과 cosine annealing 스케줄러를 적용했으며, 배치 크기는 32로 고정하였다.
성능 평가 결과, 전이학습이 모든 데이터셋에서 평균 정확도 92.3 %와 매크로 F1‑score 0.891을 기록하며 최고 수준을 달성했다. 특히 클래스 간 차이가 큰 농작물 품종 데이터셋에서는 미세조정이 소수 클래스의 재현율을 크게 향상시켰다. 반면, 고정된 특징 추출기는 평균 정확도 86.7 %에 머물렀으며, 파라미터 업데이트가 이루어지지 않음으로써 도메인 특화된 세부 패턴을 포착하는 데 한계가 있었다. 맞춤형 CNN은 평균 정확도 84.5 %와 매크로 F1‑score 0.822를 기록했지만, 에포크당 학습 시간은 사전학습 모델 대비 2.5배 빠르고, 메모리 사용량도 30 % 이하로 크게 절감되었다.
이러한 결과는 실무에서 모델 선택 시 고려해야 할 핵심 요소를 제시한다. 고성능이 절대적으로 요구되는 상황(예: 안전 관련 자동 검사)에서는 전이학습이 최선의 선택이며, 충분한 GPU 자원이 확보된 경우 전체 미세조정이 특히 효과적이다. 반면, 엣지 디바이스나 실시간 추론이 요구되는 환경에서는 파라미터 수와 연산량이 적은 맞춤형 CNN이 실용적인 대안이 된다. 또한, 사전학습된 모델을 고정된 특징 추출기로만 활용하는 경우는 빠른 프로토타이핑 단계에서 유용하지만, 최종 성능을 극대화하려면 반드시 미세조정 단계가 필요함을 시사한다.
본 연구의 제한점으로는 다섯 개 데이터셋만을 대상으로 했으며, 보다 다양한 도메인(예: 의료 영상, 위성 사진)과 최신 대형 트랜스포머 기반 비전 모델에 대한 비교가 포함되지 않은 점을 들 수 있다. 향후 연구에서는 멀티태스크 전이학습, 지식 증류, 그리고 하이퍼파라미터 자동 탐색 기법을 결합하여 효율성과 성능을 동시에 최적화하는 방안을 모색할 예정이다.