긴 음성에서 예측 관련 음향 특징을 밝혀 우울증 탐지를 위한 해석 가능한 음성 기반 모델

긴 음성에서 예측 관련 음향 특징을 밝혀 우울증 탐지를 위한 해석 가능한 음성 기반 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 긴 발화 전체를 입력으로 사용하는 음성 수준 Audio Spectrogram Transformer(AST)를 제안하고, gradient‑weighted attention 기반 프레임 해석 기법으로 우울증 판별에 중요한 음향 특징(볼륨 감소, 기본 주파수(F0) 저하)을 자동으로 추출한다. 실험 결과, 기존의 짧은 구간 기반 AST보다 높은 AUC를 달성했으며, 프레임·문장 수준 해석을 통해 임상 전문가가 이해할 수 있는 근거를 제공한다.

상세 분석

이 연구는 두 가지 핵심 문제—짧은 구간에 의존하는 레이블 노이즈와 모델 해석 가능성 부족—를 동시에 해결하려는 시도로, 기존 음성 기반 우울증 탐지 연구와 차별화된다. 먼저 데이터 전처리 단계에서 Whisper를 이용해 자동 전사하고, 전사된 텍스트를 문장 단위로 분할한다. 각 문장은 평균 5.5초 길이의 Mel‑spectrogram(128×1024)으로 변환되며, 이는 프레임 기반 AST에 입력된다. 기존 AST가 16×16 패치를 사용하던 것과 달리, 여기서는 128×2 크기의 프레임으로 직접 분할해 시간 해상도를 높이고, 패딩 마스크를 적용해 불필요한 연산을 차단한다.

모델 아키텍처는 두 단계 트랜스포머 인코더로 구성된다. 1) 문장‑레벨 인코더는 사전 학습된 AST를 활용해 각 문장의 대표 벡터(


댓글 및 학술 토론

Loading comments...

의견 남기기