수면성 감지용 딥러닝 베이스라인
본 논문은 Interspeech 2019 Computational Paralinguistics Challenge에서 제시된 SLEEP 코퍼스를 대상으로, 별도의 특성 추출 없이 원시 오디오에 바로 적용 가능한 1‑D CNN 기반의 중간 규모 딥 뉴럴 네트워크를 설계하였다. 슬라이딩 윈도우와 데이터 증강을 통해 샘플 수를 확대하고, 평균·중앙값 집계 방식을 사용해 윈도우별 예측을 원본 발화에 매핑한다. 실험 결과, 제안 모델은 Spearman ρ…
저자: Daniel Elsner, Stefan Langer, Fabian Ritz
본 논문은 2019년 Interspeech Computational Paralinguistics Challenge에서 제공된 SLEEP 코퍼스를 대상으로, 전통적인 특성 추출 없이 원시 오디오 데이터를 직접 입력으로 사용하는 1‑D 컨볼루션 신경망(CNN) 기반의 엔드‑투‑엔드 딥러닝 모델을 제안한다. 연구 배경으로는 파라링귀스틱 분야에서 감정·피로·질병 등을 음성으로 판별하는 작업이 활발히 진행되고 있으나, 대부분의 기존 접근법은 OpenSMILE, OpenXBOW, AuDeep 등에서 추출한 수천 개의 hand‑crafted 피처와 SVM·Random Forest 등 전통적인 머신러닝 모델을 결합한다는 점이다. 이러한 방법은 높은 성능을 보이지만, 도메인‑특화된 피처 엔지니어링이 필요하고 새로운 작업에 적용하기 위해서는 전문가 지식이 필수적이다.
이에 저자들은 “특정 작업에 맞춘 피처 설계 없이도 충분히 좋은 성능을 낼 수 있는 일반화된 딥러닝 파이프라인”을 목표로 삼았다. 제안된 모델은 두 개의 1‑D Conv‑Block(각 4개의 필터, 커널 크기 3)으로 구성되며, 각 블록은 배치 정규화와 맥스 풀링을 포함한다. Conv‑Block 뒤에 dropout(0.1)을 적용해 과적합을 방지하고, 이어지는 완전 연결 층(32 뉴런)과 dropout(0.5) 후 최종 선형 출력 뉴런을 통해 KSS(Karolinska Sleepiness Scale) 점수를 직접 회귀한다. 손실 함수는 MSE이며, Adam 옵티마이저(learning rate = 0.001)를 사용한다.
데이터 전처리 단계에서는 원본 16 kHz 오디오를 8 kHz까지 다운샘플링해 연산 효율을 높였고, 슬라이딩 윈도우 기법을 도입해 각 4 초 길이의 발화를 1.5 초 윈도우와 100 ms 스트라이드로 25개의 서브샘플로 변환했다. 이렇게 증강된 데이터는 총 134 395개의 학습 샘플과 128 808개의 개발 샘플을 제공한다. 클래스 불균형을 완화하기 위해 레이블 1·9 구간을 오버샘플링하고, 3~8 구간을 다운샘플링했다. 추가적인 데이터 증강으로는 시간 반전, 배경 잡음 오버레이, 라벨에 정규분포 잡음 추가를 시도했지만, 개발 셋에서 Spearman ρ 향상은 관찰되지 않았다.
모델 학습은 배치 크기 64, 에폭 8로 진행했으며, 이는 과적합을 방지하고 여러 하이퍼파라미터 조합을 빠르게 평가하기 위한 설정이다. 실험 결과, 기본 설정(16 kHz, 윈도우 1.5 s, Conv‑Block 2개)에서 MSE = 4.44, MAE = 1.72, Spearman ρ = 0.29를 기록했다. 이는 기존 강력한 베이스라인(3‑SVM 앙상블, ρ ≈ 0.26)보다 약 10 % 높은 상관계수를 의미한다. 윈도우를 1 s로 축소하거나 샘플링 레이트를 8 kHz로 낮추면 ρ가 각각 0.28, 0.26으로 소폭 감소했으며, Conv‑Block을 3개로 늘리면 ρ가 0.24로 떨어졌다. 이는 모델 복잡도가 증가할수록 작은 데이터셋에서 과적합 위험이 커짐을 보여준다.
테스트 단계에서는 전체 개발 데이터를 재학습한 최종 모델을 제출했으며, 챌린지 공식 평가에서는 ρ = 0.343을 기록한 3‑SVM 앙상블이 최고 성적을 보였지만, 제안된 딥러닝 모델도 ρ ≈ 0.29 수준의 경쟁력을 유지했다. 또한, 예측 라벨의 분포가 실제 라벨 분포와 유사하게 나타났으며, 특히 레이블 1·2·8·9 구간이 다소 부족한 점은 데이터 자체의 특성으로 해석된다.
결론적으로, 이 연구는 파라링귀스틱 작업에서 별도 피처 엔지니어링 없이도 비교적 간단한 1‑D CNN 구조와 슬라이딩 윈도우 기반 데이터 증강을 통해 충분히 경쟁력 있는 성능을 달성할 수 있음을 입증한다. 향후 연구에서는 더 큰 규모의 데이터셋, 멀티‑채널 입력(예: 스펙트로그램·MFCC), 혹은 Transformer 기반 시퀀스 모델과 결합해 성능을 한층 끌어올릴 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기