어린이 그림을 활용한 정서 상태 인식 비교 평가
초록
본 연구는 자폐 스펙트럼 장애 아동의 정서 상태를 비침습적으로 파악하기 위해, 1,472장의 어린이 그림 데이터를 이용해 MobileNet, EfficientNet, VGG16 세 가지 딥러닝 모델을 동일한 전이학습·데이터 증강 파이프라인으로 학습시켰다. 정확도, 손실, 혼동 행렬 등을 종합적으로 비교한 결과, 효율적인 스케일링 전략을 갖는 EfficientNetB0가 62.77%의 최고 정확도를 기록했으며, MobileNet은 59.24%로 경량 모델의 실용성을, VGG16은 46.20%에 머물며 과적합 및 데이터 부족 문제를 드러냈다. 연구 결과는 모바일 기반 정서 지원 어플리케이션(PandaSays) 적용 가능성을 제시한다.
상세 분석
본 논문은 어린이 그림이라는 비정형 시각 데이터를 정서 인식에 활용한다는 점에서 기존 텍스트·음성 기반 접근법과 차별화된다. 데이터는 심리전문가가 5가지 기본 감정(행복, 슬픔, 분노, 공포, 불안)으로 라벨링한 1,472개 이미지이며, 클래스 불균형을 완화하기 위해 훈련 단계에서 회전(±15°), 줌(±5%), 평행 이동(±5%)을 포함한 제한적인 데이터 증강을 적용하였다. 이미지 해상도는 224×224 RGB로 통일하고, 각 모델은 ImageNet 사전학습 가중치를 초기화한 뒤 고정된 특징 추출기로 사용하였다. 분류 헤드는 전역 평균 풀링, 드롭아웃, 소프트맥스 레이어로 구성해 파라미터 수를 최소화하였다.
세 모델의 학습 설정은 동일했다. 훈련·검증 비율 75:25, 배치 크기와 조기 종료 기준, 옵티마이저(Adam)와 학습률 스케줄링을 일관되게 적용함으로써 모델 간 비교의 공정성을 확보했다. 결과적으로 EfficientNetB0는 복합 스케일링(깊이·폭·해상도 동시 최적화) 덕분에 복잡한 시각 패턴을 효과적으로 포착하면서도 연산 비용을 크게 늘리지 않아 62.77%의 정확도와 1.8688의 손실을 달성했다. MobileNetV2는 깊이와 채널 수를 경량화한 구조이지만, 59.24%의 정확도와 1.1821의 손실을 기록해 실시간 모바일 환경에 적합함을 보여준다. 반면 VGG16은 138M 이상의 파라미터를 보유함에도 불구하고, 작은 데이터셋과 제한된 에포크 내에서 충분히 학습되지 않아 46.20%에 머물렀으며, 과적합 징후와 낮은 일반화 능력이 드러났다.
혼동 행렬 분석에서는 EfficientNet이 ‘행복’과 ‘공포’ 클래스에서 상대적으로 높은 정밀도를 보였으며, 감정 간 시각적 유사성(예: 슬픔↔불안) 때문에 오분류가 집중되는 경향을 확인했다. MobileNet도 유사한 패턴을 보였지만, ‘분노’와 ‘슬픔’ 사이의 혼동이 다소 높았다. VGG16은 전반적으로 모든 클래스에서 높은 오분류율을 나타냈으며, 특히 소수 클래스에서 정확도가 급격히 떨어졌다. 이는 모델이 복잡한 특징을 과도하게 학습하면서도 데이터의 다양성을 충분히 포착하지 못했음을 의미한다.
연구는 또한 실용적 적용을 염두에 두고, 효율적인 추론 시간과 메모리 사용량을 고려한 모델 선택이 중요함을 강조한다. EfficientNet은 약간의 연산 증가에도 불구하고 모바일 디바이스에서 실시간 추론이 가능하도록 최적화될 수 있으며, MobileNet은 더 낮은 하드웨어 사양에서도 안정적인 성능을 제공한다. VGG16은 고성능 서버 환경이 필요하지만, 현재 데이터 규모와 라벨링 비용을 고려할 때 비용 효율성이 낮다.
결론적으로, 어린이 그림 기반 정서 인식에서는 모델 복잡도와 데이터 규모 사이의 균형이 핵심이며, EfficientNet과 MobileNet 같은 효율적인 아키텍처가 실제 임상·교육 현장에서 비침습적 정서 평가 도구로 활용될 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기