다중모달 후두경 비디오 분석 시스템으로 성대 마비 자동 진단
초록
**
본 논문은 음성 및 영상 데이터를 동시에 활용해 후두경 비디오에서 핵심 구간을 자동 추출하고, 전처리된 오디오와 정교한 영상 마스크를 기반으로 좌·우 성대 움직임 각도와 동역학을 측정한다. 사전학습된 오디오 인코더와 확산 기반 마스크 정제 기법을 결합해 단일·양측 성대 마비를 높은 정확도로 구분하며, 임상 현장에서의 시각·청각 지표를 제공한다.
**
상세 분석
**
MLVAS는 기존의 영상‑기반 혹은 음성‑기반 접근법이 갖는 한계를 극복하기 위해 두 모달리티를 통합한 파이프라인을 설계하였다. 첫 단계에서는 STFT 기반 스펙트로그램을 입력으로 하는 키워드 스포팅(KWS) 모델을 사용해 환자가 발음하는 “/E:/” 구간을 정확히 탐지한다. 이때 2‑D ResNet‑블록과 어댑티브 평균 풀링을 결합한 경량 CNN 구조가 실시간 추론에 적합하도록 설계되었으며, 슬라이딩 윈도우 방식으로 연속 프레임에 적용해 음성 이벤트를 시계열 마스크로 변환한다.
음성 마스크는 영상 모듈의 전처리 단계에서 중요한 힌트가 된다. 영상 측면에서는 YOLO‑v5 기반 성대 검출 모델을 사전 학습된 BAGLS 데이터셋으로 미세조정하여 프레임별 성대·성문 영역을 빠르게 로컬라이즈한다. 이후 전통적인 U‑Net을 이용해 초기 마스크를 생성하고, 확산 모델을 추가로 적용해 false‑positive를 감소시킨다. 확산 기반 정제는 마스크 경계의 부드러움을 보존하면서 작은 잡음 영역을 효과적으로 제거한다는 점에서 기존 U‑Net 단독 사용보다 정량적 IoU가 크게 향상된다.
시각적 특징 추출은 두 가지 핵심 지표로 구성된다. 첫째, 좌·우 성대의 각도 편차(LVFDyn, RVFDyn)를 측정해 성대 중간선에 대한 기울기를 계산한다. 이는 기존의 단일 AGA(Anterior Glottic Angle)보다 좌·우 비대칭성을 명확히 드러내어 단측 마비 구분에 유리하다. 둘째, 시간축을 따라 각도 변화를 시계열로 정규화해 동역학 프로파일을 만든다. 이러한 프로파일은 마비 정도와 회복 가능성을 정량화하는 데 활용될 수 있다.
오디오 특징은 대규모 공개 음성 데이터셋으로 사전 학습된 Dasheng(MAE 기반) 인코더를 사용해 추출한다. 이 인코더는 멜 스펙트로그램 외에도 고차원 음향 패턴을 포괄적으로 학습했으며, 소량의 임상 데이터에 대해 파인‑튜닝만으로도 강건한 임베딩을 제공한다.
멀티모달 결합 단계에서는 오디오 임베딩과 시각적 각도·동역학 피처를 단순 concatenate 후, 다층 퍼셉트론 혹은 경량 Transformer 기반 분류기에 입력한다. 실험 결과, 단일 모달(오디오 또는 영상) 대비 정확도·재현율·F1 점수가 각각 평균 4~7% 상승했으며, 특히 좌·우 구분이 필요한 단측 마비(uvfp)에서 92% 이상의 정확도를 달성했다.
Ablation study에서는 (1) KWS 없이 전체 영상 사용, (2) 확산 정제 없이 U‑Net만 사용, (3) 오디오 피처 제외 등 세 가지 변형을 테스트했으며, 모두 성능 저하를 보였다. 이는 음성 이벤트 탐지, 고품질 마스크 정제, 그리고 양쪽 모달리티의 상호 보완성이 시스템 전체 성능에 필수적임을 입증한다.
마지막으로, 시스템은 실시간 데모와 시각화 도구를 제공해 임상의가 직접 영상 하이라이트와 각도 변화를 확인할 수 있게 함으로써, 기존의 주관적 판단을 객관적 수치와 시각적 증거로 보완한다. 전체적으로 MLVAS는 데이터 부족 문제를 사전학습 모델로 완화하고, 멀티모달 융합을 통해 임상 현장에서 바로 적용 가능한 진단 보조 도구로서 높은 실용성을 보여준다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기