ECG 해석을 위한 투명 신경망 ECG IMN
초록
본 논문은 12‑리드 ECG 분류에 특화된 인터프리터블 메소모픽 뉴럴 네트워크(ECG‑IMN)를 제안한다. 하이퍼네트워크 구조를 이용해 입력 신호마다 고해상도 가중치 행렬 W를 생성하고, 이를 원본 ECG와 선형 결합하여 예측을 수행함으로써 사후 해석이 아닌 본질적인 설명을 제공한다. PTB‑XL 데이터셋에서 기존 블랙박스 CNN과 거의 동등한 AUROC를 달성하면서, 각 리드와 시간 구간별로 정확한 특징 기여도를 시각화한다.
상세 분석
ECG‑IMN은 두 단계의 하이퍼네트워크 설계가 핵심이다. 첫 번째 단계는 12‑리드 ECG X∈ℝ^{12×L}를 3개의 2D‑컨볼루션 블록(커널 3×15, 배치 정규화, GELU, 최대 풀링)으로 압축해 잠재 표현 Z∈ℝ^{64×12×L/4}를 만든다. 두 번째 단계인 트랜지션 디코더는 최근접 보간과 추가 컨볼루션을 통해 Z를 원본 시간 해상도 L으로 복원하고, 각 클래스 k에 대한 가중치 텐서 W_k∈ℝ^{12×L}를 출력한다. 이때 W_k는 완전히 선형 모델의 파라미터 역할을 하며, 예측 로그잇 z_k는 z_k=∑{c,t}W{k,c,t}·X_{c,t}+b_k 로 계산된다. 따라서 W⊙X 그 자체가 정확한 특성 기여도(인덱스 맵)이며, 후처리 없이 바로 해석이 가능하다.
모델 학습은 예측 손실(다중 클래스는 교차 엔트로피, 이진은 BCE)과 L1 정규화(λ=1e‑4)를 결합한 복합 손실로 진행한다. L1 정규화는 W 의 희소성을 강제해, 임상적으로 의미 있는 파형(예: ST‑elevation, T‑wave inversion)만이 높은 가중치를 갖도록 유도한다. 실험에서는 500 Hz와 100 Hz 두 샘플링 레이트에서 이진 및 다중 클래스 설정을 모두 검증했으며, 전통적인 블랙박스 CNN 대비 AUROC 차이가 0.02 이하에 불과했다. 특히 트랜지션 디코더 없이 직접 가중치를 생성한 “IMN Direct”는 성능이 거의 무작위 수준에 머물러, 고해상도 가중치 매핑에 디코더가 필수적임을 입증한다.
시각화 측면에서는 두 가지 전략을 제시한다. 이진 모델은 스칼라 인덱스 맵 I_scalar=W⊙X 을 사용해 양·음 기여를 구분하고, 다중 클래스 모델은 클래스별 I(k)=W_k⊙X 을 통해 서로 다른 진단 근거를 독립적으로 확인한다. 또한, 윈도우 크기 L_win 과 스트라이드 S 를 조절해 시간 구간별 합산(공식 10)으로 노이즈를 억제하고, 임상적으로 중요한 구간만 강조한다. 마지막으로, HuggingFace Spaces에 구현된 인터랙티브 웹앱을 통해 사용자는 실시간으로 가중치 맵을 확인하고, 특정 리드·구간을 마스킹해 예측 변화를 관찰함으로써 모델의 인과적 설명력을 직접 검증할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기