설명 가능한 규칙 기반 수면 단계 모델 SleepVLM

본 논문은 자동 수면 단계 분류의 정확도는 인간 전문가 수준에 도달했지만, ‘왜’ 그런 결정을 내렸는지에 대한 설명이 부족해 임상 현장에서 활용이 제한되는 문제점을 지적한다. 이를 해결하기 위해 저자들은 Vision‑Language Model(VLM) 기반의 SleepVLM을 제안한다. SleepVLM은 다채널 PSG(EEG, EOG, EMG 등) 신호를 30 초 단위로 전처리·표준화한 뒤, 448×224 픽셀의 파형 이미지로 변환한다. 이러한 이미지 입력은 기존 신호 기반 모델과 달리 시각적 패턴을 직접 학습하도록 설계되었다. 학습은 두 단계로 진행된다. 1) 파형‑지각 사전학습 단계에서는 Vision Encoder와 Language Model을 동시에 학습시켜, 각 채널별 δ, θ, α, β 파워와 평균 전압(MAV) 등 스펙트럼 특성을 예측하도록 한다. 이 과정에서 Vision Encoder는 파형 이미지의 미세한 변화를 포착하고, Language Model은 이를 텍스트 토큰으로 변환한다. 2) 규칙‑그라운드 파인튜닝 단계에서는 연속된 세 에포크(전, 현재, 후)를 입력으로 사용하고, AASM 수면 단계 규칙을 프롬프트에 삽입한다. 여기서는 Vision Encoder를 고정하고, LoRA(저차원 적응) 기법을 이용해 Language Model만을 미세조정한다. 결과적으로 모델은 현재 에포크의 수면 단계와 함께 적용된 규칙 식별자(ID)와 규칙 설명을 자연어로 출력한다. 성능 평가는 두 개의 데이터셋을 사용했다. 첫 번째는 MASS‑SS1(53명)으로, 두 번째는 외부 기관 ZUAMHCS(100명)이다. SleepVLM은 MASS‑SS1에서 정확도 0.835, 매크로‑F1 0.793, Cohen’s κ 0.767을 기록했으며, ZUAMHCS에서는 κ 0.743을 달성했다. 이는 기존 최첨단 신호 기반 모델(LPSGM, RobustSleepNet 등)과 이미지 기반 모델(SleepXViT 등)과 비교해 동등하거나 약간 높은 수준이다. 특히 외부 데이터셋에서 성능 저하가 2.4 %p에 불과해 도메인 일반화 능력이 뛰어나다는 점이 강조된다. 혼동 행렬 분석 결과, W(깨어 있음), N2, R 단계의 재현율이 높으며, 인간 전문가 간 일치도가 낮은 N1 단계에서 오류가 집중되는 경향을 보였다. 이는 N1 단계가 전기생리학적으로 모호한 특성을 가지고 있기 때문이다. 설명 품질 평가는 전문가가 생성된 텍스트를 사실 정확도, 증거 포괄성, 논리 일관성 세 측면에서 0‑5 점 척도로 평가한 결과, 평균 점수가 모두 4.0 이상이었다. 즉, 모델이 제시한 근거가 AASM 규칙을 정확히 인용하고, 파형 특징을 적절히 설명하며, 논리적 흐름을 유지한다는 것을 의미한다. 추가적으로 저자들은 4‑bit 양자화를 적용해 모델 파라미터를 55 % 감소시키고, 추론 속도를 2.2배 가속화했으며, κ 감소는 1.6 %p 이하에 머물렀다. 이는 저전력 임베디드 디바이스나 클라우드 비용 절감에 유리하다. 마지막으로, 저자들은 MASS‑EX라는 새로운 데이터셋을 공개한다. 이 데이터셋은 62명(총 59,317 에포크)으로 구성되며, 각 에포크에 AASM 규칙 라벨과 일부에 대한 전문가 서술형 근거가 포함돼 있다. 이는 향후 해석 가능한 수면 스테이징 연구와 VLM 기반 의료 AI 개발에 중요한 벤치마크가 될 것이다. 결론적으로 SleepVLM은 자동 수면 단계 분류의 정확도와 임상적 신뢰성을 동시에 만족시키는 최초의 VLM 기반 시스템이다. 규칙‑그라운드 파인튜닝을 통해 모델이 ‘무엇을’ 예측했는지뿐 아니라 ‘왜’ 그런 결정을 내렸는지를 명시함으로써, AI에 대한 의료진의 신뢰를 높이고 실제 임상 워크플로우에 통합될 가능성을 크게 확장한다.

설명 가능한 규칙 기반 수면 단계 모델 SleepVLM

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기