의료 오디오 분류를 위한 합성 데이터 증강, 기대와 한계
초록
본 연구는 COVID‑19 감염 여부를 구분하는 기침 소리 데이터에 대해 VAE, GAN, Diffusion 모델을 이용한 합성 데이터 증강이 표준 CNN 분류기에 미치는 영향을 평가한다. 기본 모델의 F1‑score는 0.645였으며, 개별 증강 기법은 성능 향상을 보이지 않았고 오히려 감소하기도 했다. 다만 네 가지 모델(기본 + 3가지 증강 모델)의 앙상블은 F1‑score를 0.664로 소폭 개선하였다. 결과는 의료 오디오 분야에서 합성 데이터 증강이 무조건적인 성능 향상을 보장하지 않으며, 데이터 특성 및 모델‑증강 호환성을 고려한 정교한 설계가 필요함을 시사한다.
상세 분석
이 논문은 의료 오디오, 특히 호흡음(기침) 분류에서 데이터 불균형과 제한된 라벨링 문제를 해결하고자 합성 데이터 증강을 시도한다. 사용된 데이터는 Coswara 프로젝트의 COVID‑19 기침 녹음 4,963개이며, 건강(3,847)과 감염(1,116) 비율이 약 3.4:1로 중간 정도의 불균형을 보인다. 전처리는 16 kHz 샘플링, 3초 고정 길이, 멜 스펙트로그램(128 mel‑bins) 변환 및 채널별 z‑스코어 정규화로 표준화하였다. 베이스라인 CNN은 4개의 컨볼루션 블록(32‑256 필터)으로 구성되고, 100 epoch 학습 후 조기 종료를 적용했으며, 매크로 F1을 주요 지표로 삼았다.
합성 데이터 생성에는 세 가지 최신 생성 모델을 사용했다. VAE는 128 차원 잠재공간을 갖고 복합 손실(재구성 MSE + KL, β=0.1)으로 200 epoch 학습했으며, GAN은 WGAN‑GP 구조로 300 epoch, 비평가‑생성자 비율 5:1, λ=10을 적용했다. Diffusion 모델은 U‑Net 기반 DDPM을 400 epoch 학습하고, DDIM 샘플링(50 step)으로 합성 데이터를 생성했다. 모든 생성 모델은 소수 클래스(감염)만을 대상으로 학습했으며, 훈련 세트에 50 % 비율(558개)만큼 합성 샘플을 추가했다.
실험 결과는 기대와 달리 개별 증강이 거의 효과가 없었음을 보여준다. VAE는 F1을 0.001 상승시켰지만 통계적으로 의미 있는 차이는 아니다. GAN은 오히려 -0.036 감소했으며, Diffusion은 -0.001 감소했다. AUROC도 비슷한 경향을 보였다. 반면 네 모델을 단순 평균 앙상블한 경우 F1가 0.019, AUROC가 0.016 상승해 가장 큰 개선을 기록했다. 이는 서로 다른 생성 모델이 서로 보완적인 오류 패턴을 만들고, 앙상블이 이를 평균화함으로써 성능을 끌어올렸을 가능성을 시사한다.
한계점으로는 (1) 단일 데이터셋·단일 태스크에 국한된 평가, (2) 베이스라인 CNN 외 다른 아키텍처(예: Transformer, 사전학습 모델)와의 비교 부재, (3) 실험을 단일 실행에 의존해 통계적 검증이 부족함을 들 수 있다. 또한 합성 데이터가 원본 데이터의 잡음과 제한된 다양성을 그대로 반영해, 실제 임상적 변이성을 충분히 포착하지 못했을 가능성이 있다. 향후 연구는 (①) 합성 데이터를 사전학습이나 자기지도 학습에 활용해 표현 학습을 강화, (②) 도메인 지식(예: 호흡음의 물리‑생리학적 제약)을 모델에 통합해 현실감 있는 샘플을 생성, (③) 다양한 불균형 비율·다중 클래스·다양한 의료 오디오(폐음, 심음 등)에서의 일반화를 검증하는 것이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기