MAMAF Net 동작 인식 및 다중 어텐션 융합 네트워크를 이용한 뇌졸중 진단

이 연구는 급성 뇌졸중의 조기 진단을 위해 기존의 NIHSS, CPSS, FAST와 같은 임상 평가를 자동화하고자 한다. 저자들은 네 가지 신경학적 검사 항목(얼굴 마비, 최선 시선, 최선 언어, 팔 움직임)을 스마트폰으로 촬영한 영상을 활용해, 환자의 움직임과 표정을 동시에 분석하는 엔드‑투‑엔드 딥러닝 모델 MAMAF‑Net을 설계하였다. 모델은 먼저 각 영상에 2D‑Convolutional Block을 적용해 기본적인 공간 특징을 추출하고, Motion‑Aware Module을 통해 프레임 간 차분을 기반으로 움직임에 민감한 특징을 강화한다. 이때 dot‑scaled attention을 사용해 중요한 움직임 패턴을 강조하고, 원본 특징과 결합해 최종 모션 특징 맵을 만든다. 다음 단계에서는 네 개의 모션 특징 맵을 Multi‑Attention Fusion Module에 입력한다. 이 모듈은 query‑key‑value 어텐션 메커니즘을 적용해 각 영상 채널의 상대적 중요도를 학습하고, 가중합을 통해 통합된 특징 A를 생성한다. 통합된 특징은 3D‑Convolutional Block으로 전달되어 시간·공간 차원을 동시에 축소하면서 고차원 정보를 압축한다. 마지막으로 완전 연결층과 softmax를 거쳐 뇌졸중/정상(및 TIA 포함) 이진 분류 결과를 출력한다. 실험은 2021~2022년 사이에 핀란드의 Kuopio와 Oulu 두 병원에서 수집한 Stroke‑data 데이터셋(총 148명, 뇌졸중 84명, TIA 10명, 정상 54명)으로 수행되었다. 각 환자는 NIHSS 프로토콜에 따라 네 개의 영상을 촬영했으며, 라벨은 신경과 전문의가 임상 및 영상·EEG 검토를 통해 부여하였다. MAMAF‑Net은 10‑fold 교차 검증에서 평균 민감도 93.62%, 특이도 91.78%, AUC 95.33%를 달성했으며, 기존 ResNet‑50·DenseNet‑121 기반 베이스라인보다 유의미하게 높은 성능을 보였다. 특히, 모션‑Aware 모듈을 제거하거나 어텐션 융합 없이 단순 합산한 변형 모델은 AUC가 88% 이하로 떨어져, 두 핵심 구성 요소가 성능 향상에 결정적임을 확인하였다. 논문의 한계로는 데이터셋 규모가 제한적이며, 촬영 환경(조명, 카메라 각도 등)의 변동성이 모델 일반화에 영향을 줄 수 있다는 점을 들었다. 향후 연구에서는 다기관·다문화 데이터셋을 구축하고, 경량화된 모델을 모바일 디바이스에 구현해 실시간 전처리·진단 파이프라인을 완성하는 것이 목표이다. 또한, TIA와 경증 뇌졸중을 구분하는 다중 클래스 확장과, 영상 외에 음성·생체신호를 통합한 멀티모달 접근법도 제안한다.

MAMAF Net 동작 인식 및 다중 어텐션 융합 네트워크를 이용한 뇌졸중 진단

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기