맞춤형 CNN과 사전학습 모델 전이학습의 다중 시각 데이터셋 비교 연구
초록
본 논문은 도로 결함, 농작물 품종, 과일·잎 병, 보행자 통로 침해, 무단 차량 인식 등 5개 실제 이미지 분류 데이터셋을 대상으로 (1) 맞춤형 소형 CNN을 처음부터 학습, (2) 사전학습된 대형 CNN을 고정된 특징 추출기로 사용, (3) 사전학습 백본을 부분·전체 미세조정하는 전이학습 세 가지 접근법을 동일 조건에서 비교한다. 정확도와 매크로 F1 점수 외에 학습 시간·파라미터 수 등 효율성 지표도 함께 제시한다. 실험 결과 전이학습이 가장 높은 예측 성능을 보였으며, 맞춤형 CNN은 제한된 연산·메모리 환경에서 효율‑정확도 균형이 뛰어나다는 결론을 도출한다.
상세 분석
본 연구는 시각 인식 분야에서 흔히 선택되는 세 가지 모델링 전략을 체계적으로 비교함으로써 실무 적용 시 의사결정 근거를 제공한다. 첫 번째 전략인 맞춤형 CNN은 데이터셋 규모가 작고 레이블이 제한적인 경우 과적합 위험을 최소화하면서도 연산량과 메모리 사용을 크게 절감한다. 논문에서는 57개의 합성곱 층과 12개의 완전 연결 층으로 구성된 경량 네트워크를 설계했으며, 배치 정규화와 드롭아웃을 적용해 일반화 성능을 강화하였다. 두 번째 전략인 사전학습된 모델을 고정된 특징 추출기로 활용하는 경우, 대규모 이미지 데이터(예: ImageNet)에서 학습된 풍부한 저‑레벨 및 중‑레벨 특징을 그대로 이용한다. 이 접근법은 파인튜닝 없이도 비교적 높은 정확도를 제공하지만, 도메인 간 차이가 큰 경우 성능 한계에 직면한다. 세 번째 전략인 전이학습은 사전학습된 백본을 초기 가중치로 사용하고, 최상위 분류 헤드를 새롭게 학습하거나 전체 네트워크를 미세조정한다. 논문에서는 두 단계(고정된 백본 + 새 헤드, 전체 미세조정)를 모두 실험했으며, 특히 전체 미세조정이 데이터셋마다 최적의 성능을 달성함을 확인했다. 효율성 측면에서 맞춤형 CNN은 파라미터 수가 0.52 백만 수준으로 가장 작으며, 에포크당 학습 시간이 0.81.5 초에 불과했다. 반면 사전학습된 대형 모델(VGG‑16, ResNet‑50 등)은 파라미터가 2030 백만에 달해 학습 시간이 35배 늘었다. 전이학습은 파라미터 수는 사전학습 모델과 동일하지만, 초기 학습 단계에서 고정된 백본을 사용함으로써 전체 학습 시간은 약 30 % 절감되었다. 매크로 F1 점수와 정확도 모두 전이학습이 가장 우수했으며, 특히 도메인 차이가 큰 농작물 품종 식별과 무단 차량 인식에서 3~5 %p의 성능 향상을 기록했다. 이러한 결과는 전이학습이 다양한 시각 도메인에 걸쳐 일반화 능력이 뛰어나지만, 컴퓨팅 자원이 제한된 환경에서는 맞춤형 CNN이 실용적인 대안이 될 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기