템플 대학교 병원 발작 검출 코퍼스
초록
본 논문은 세계 최대 규모의 공개 뇌전도(EEG) 발작 데이터베이스인 템플 대학교 병원 발작 코퍼스(TUSZ)를 소개한다. 임상 환경에서 수집된 30,000시간 이상의 EEG 기록을 자동·수동으로 전처리·라벨링하여 6,000건 이상의 발작 이벤트를 포함시켰으며, 데이터 구축 과정, 라벨링 정확도 검증, 그리고 기본적인 베이스라인 검출 모델 성능을 제시한다.
상세 분석
TUSZ는 기존 공개 EEG 데이터베이스와 비교해 두드러진 규모와 다양성을 갖는다. 데이터는 템플 대학교 병원(Temple University Hospital)에서 2008년부터 2018년까지 수집된 30,000시간 이상의 연속 EEG 기록을 기반으로 한다. 이 중 약 6,000시간은 발작이 발생한 세션이며, 발작 유형은 전신 발작, 부분 발작, 복합 부분 발작 등 8가지 클래스로 구분된다. 데이터 구축 단계는 크게 세 단계로 나뉜다. 첫 번째는 자동 전처리 단계로, 신호 품질 저하 구간을 탐지하고 전극 불량, 전기적 잡음, 움직임 아티팩트를 제거하기 위해 고역통과 필터(0.5 Hz)와 저역통과 필터(70 Hz)를 적용한다. 두 번째는 기계학습 기반 후보 발작 구간 탐지 단계이다. 저자들은 기존의 SVM 기반 특징 추출기와 CNN 기반 시계열 모델을 결합해 잠재적 발작 구간을 0.5 s 단위로 스코어링하고, 스코어가 임계값을 초과하는 구간을 후보로 선정한다. 세 번째는 전문가 검증 단계로, 신경과 전문의 3인이 독립적으로 라벨링하고, 불일치가 발생한 경우 다중 라운드 토론을 통해 최종 라벨을 확정한다. 라벨링 정확도는 교차 검증 결과 평균 96 % 이상의 일치율을 보였으며, 이는 기존 공개 데이터베이스(예: CHB‑MIT)의 라벨링 정확도(≈90 %)보다 현저히 높다. 데이터셋은 EDF+ 포맷으로 제공되며, 메타데이터 파일에는 환자 연령, 성별, 진단 정보, 약물 투여 기록 등이 포함된다. 또한 저자들은 베이스라인 발작 검출 모델을 제시했는데, 1‑D CNN‑LSTM 하이브리드 구조가 전체 데이터에서 0.88의 AUROC와 0.81의 F1‑score를 달성했다. 이 결과는 TUSZ가 실제 임상 환경에서의 자동 발작 검출 연구에 충분히 활용 가능함을 시사한다. 데이터 공개 정책은 연구 재현성을 높이기 위해 완전한 오픈 액세스를 제공하며, 데이터 사용 시 반드시 IRB 승인 및 환자 익명화 절차를 준수하도록 명시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기