Omni‑iEEG: 전 세계 8개 주요 센터를 아우르는 대규모 전두뇌 EEG 데이터셋 및 임상‑중심 벤치마크
📝 Abstract
Epilepsy affects over 50 million people worldwide, and one-third of patients suffer drug-resistant seizures where surgery offers the best chance of seizure freedom. Accurate localization of the epileptogenic zone (EZ) relies on intracranial EEG (iEEG). Clinical workflows, however, remain constrained by labor-intensive manual review. At the same time, existing data-driven approaches are typically developed on single-center datasets that are inconsistent in format and metadata, lack standardized benchmarks, and rarely release pathological event annotations, creating barriers to reproducibility, cross-center validation, and clinical relevance. With extensive efforts to reconcile heterogeneous iEEG formats, metadata, and recordings across publicly available sources, we present $\textbf{Omni-iEEG} $, a large-scale, pre-surgical iEEG resource comprising $\textbf{302 patients}$ and $\textbf{178 hours}$ of high-resolution recordings. The dataset includes harmonized clinical metadata such as seizure onset zones, resections, and surgical outcomes, all validated by board-certified epileptologists. In addition, Omni-iEEG provides over 36K expert-validated annotations of pathological events, enabling robust biomarker studies. Omni-iEEG serves as a bridge between machine learning and epilepsy research. It defines clinically meaningful tasks with unified evaluation metrics grounded in clinical priors, enabling systematic evaluation of models in clinically relevant settings. Beyond benchmarking, we demonstrate the potential of end-to-end modeling on long iEEG segments and highlight the transferability of representations pretrained on non-neurophysiological domains. Together, these contributions establish Omni-iEEG as a foundation for reproducible, generalizable, and clinically translatable epilepsy research. The project page with dataset and code links is available at omni-ieeg.github.io/omni-ieeg.
💡 Analysis
**
1. 연구 배경 및 필요성
- 임상적 병목: iEEG 해석은 수시간~수일에 달하는 수작업 검토가 필요하고, 전문가 간 일관성이 낮아(Inter‑rater reliability) 치료 계획에 변동성을 초래한다.
- 데이터 과학적 한계: 기존 공개 iEEG 데이터는 포맷·채널 명명·임상 메타데이터가 서로 달라, 모델 학습·평가에 큰 장벽이 된다. 또한, 표준화된 벤치마크가 없어 연구 간 성능 비교가 불가능했다.
2. 데이터셋 구성 및 품질 관리
| 항목 | 내용 |
|---|---|
| 환자 수 | 302명 (다양한 연령·성별·병변 유형) |
| 총 기록 시간 | 178 시간 (≈10 TB) |
| 기관 | UCLA, Wayne State, University Hospital Zurich, UPenn, University of Miami, NIH, Johns Hopkins 등 8곳 |
| 채널 수 | 평균 120 채널 (범위 64~256) |
| 샘플링 레이트 | 원본 유지 (0.5 kHz–5 kHz), 벤치마크용 1 kHz 재샘플링 제공 |
| 임상 메타데이터 | SOZ, 절제 영역, 수술 결과(Seizure‑Free / Not‑Free), 영상 정보 등 |
| 주석 | 36 177개의 HFO 이벤트 (병리적 19 180, 비병리적 7 709, 아티팩트 9 288) |
| 품질 검증 | 보드‑인증 신경학자 4인 팀이 전 데이터·주석을 2단계 검증, IRB 승인·완전 비식별화 보장 |
- 통합 파이프라인: 각 원본 데이터셋의 전처리 프로토콜을 그대로 유지하면서, 메타데이터 스키마를
Omni‑iEEG Schema v1.0으로 통일. 채널 명명 규칙(예:L-Temp-01)과 좌표 체계(표준 MNI 좌표)도 일관되게 매핑. - 주석 신뢰도: 다중 검증자 간 Cohen’s κ = 0.78(병리적 HFO) 로 높은 일관성을 보였으며, 불일치 사례는 추가 라운드 토론을 통해 최종 결정.
3. 제시된 벤치마크 과제
3.1 HFO 다중 클래스 분류
- 목표: 후보 HFO를
병리적(spkHFO),비병리적,아티팩트로 구분. - 평가 지표: 매크로‑AUC, 매크로‑F1, 클래스별 정밀도·재현율.
- 베이스라인: 3가지 전통적 HFO 검출기(Short‑Time Energy, MNI, Hilbert)와 2가지 딥러닝 모델(CNN‑1D, Transformer‑based) 제공.
- 의의: 실제 임상에서 HFO를 신뢰성 있게 자동화하면, 전극 배치·절제 계획을 크게 단축할 수 있다.
3.2 병변 채널 식별 & 수술 결과 예측
- 채널 레벨: SOZ vs. 정상 채널(Seizure‑Free 환자 보존 채널) 구분.
- 환자 레벨: 모델이 산출한 병변 점수와 실제 수술 결과(Seizure‑Free 여부) 간 상관관계 분석.
- 특징: 스펙트럼(파워 밴드), 시간‑도메인(스파이크 형태), 네트워크(그래프 커뮤니티) 등 멀티모달 피처를 자유롭게 결합 가능.
- 임상적 파급효과: 채널 수준에서 높은 재현율을 달성하면, 불필요한 절제 위험을 최소화하고, 수술 성공률을 향상시킬 수 있다.
4. 주요 강점
- 규모와 다양성: 302명·8기관 데이터는 기존 공개 iEEG 데이터(수십 명 수준)와 비교해 10배 이상 규모이며, 다양한 장비·프로토콜을 포함해 모델의 일반화 능력을 검증할 수 있다.
- 전문가 검증 메타데이터: 임상 전문가가 직접 검증·주석한 SOZ·절제·결과 정보는 “실제 치료와 직결된 라벨”이라 머신러닝 연구에 바로 적용 가능하다.
- 표준화된 벤치마크: 과제 정의·데이터 분할·평가 지표가 명시돼 있어, 향후 연구자들이 동일 조건에서 성능을 비교할 수 있다.
- 오픈·재현 가능: 코드와 재현 스크립트가 제공돼, 데이터 전처리·샘플링·분할까지 동일하게 수행할 수 있다.
5. 제한점 및 개선 방향
| 제한점 | 상세 내용 | 개선 방안 |
|---|---|---|
| 데이터 편향 | 대부분이 미국·유럽 8개 센터에 국한, 인종·문화적 다양성 부족 | 아시아·남미·아프리카 기관과 협업해 데이터 확대 |
| 채널 위치 정보 제한 | 일부 데이터는 정확한 전극 좌표가 누락 | 표준화된 전극 좌표(예: iEEG‑BIDS)와 3D 뇌 모델 제공 |
| 라벨 불확실성 | HFO 정의 자체가 논쟁 중이며, spkHFO 라벨도 전문가 의견에 의존 | 다중 라벨링(soft label) 및 불확실성 모델링 도입 |
| 실시간 적용 미비 | 현재 벤치마크는 오프라인 분석 중심 | 스트리밍 파이프라인 및 경량 모델(Edge‑AI) 개발 |
| 다중 모달 통합 부족 | 영상(MRI/CT), 임상 기록 등과의 연계가 제한적 | 멀티모달 데이터셋(이미지·전기·임상) 구축 및 공동 학습 프레임워크 제공 |
6. 향후 연구 로드맵
- 멀티모달 통합 – MRI, PET, CT와 iEEG를 동시에 학습하는 모델 개발(예: 3D‑CNN + 시계열 Transformer).
- 전이 학습 – 비신경생리학 데이터(예: 일반 EEG, 심전도)에서 사전 학습한 표현을 iEEG에 전이시켜 데이터 효율성 향상.
- 설명가능 AI – Grad‑CAM, SHAP 등으로 모델이 강조하는 전극·시간 구간을 시각화, 임상의 신뢰도 제고.
- 임상 시험 – 실제 수술 전 계획 단계에 모델을 적용해 의사결정 지원 시스템(Decision Support System)으로 검증.
- 표준화 추진 –
iEEG‑BIDS와 연계해 데이터 포맷·메타데이터 표준을 국제 학회에 제안, 커뮤니티 기반 데이터 공유 촉진.
7. 결론
Omni‑iEEG는 규모·품질·표준화라는 세 축을 모두 만족하는 최초의 대규모 전두뇌 iEEG 데이터셋이다. 풍부한 임상 메타데이터와 36 K 이상의 전문가 주석은 머신러닝 모델이 실제 임상 의사결정에 바로 투입될 수 있는 기반을 제공한다. 제시된 두 가지 벤치마크 과제는 병변 탐지와 수술 결과 예측이라는 핵심 임상 목표를 직접적으로 다루며, 향후 연구자들이 모델의 일반화·해석 가능성·임상 적용성을 체계적으로 평가하도록 설계되었다. 다만, 데이터 편향·라벨 불확실성·다중 모달 통합 부족 등 몇몇 한계가 남아 있어, 국제 협업을 통한 데이터 확장과 멀티모달·설명가능 AI 연구가 뒤따라야 할 과제로 남는다.
Omni‑iEEG는 뇌전증 연구와 임상 치료 사이의 격차를 메우는 ‘연구‑임상 연결 고리’ 로서, 향후 10년간 신경공학·의료 AI 분야의 핵심 인프라가 될 가능성이 높다.
**
📄 Content
뇌전증(간질) 연구를 위한 대규모 표준화 iEEG 데이터셋, Omni‑iEEG 소개
배경
뇌전증은 미국에서 약 3.4 백만 명, 전 세계적으로는 5천만 명에 달하는 환자를 가지고 있는 가장 흔한 신경계 질환 중 하나이다(질병통제예방센터, 2017; WHO, 2023). 환자의 약 **30 %**가 약물에 내성을 보이는 난치성 뇌전증을 겪으며, 이 경우 약물로 발작을 억제할 수 없다(Kwan 등, 2010). 이러한 환들의 대부분은 특정 뇌 영역에서 시작되는 국소 발작을 경험한다(Jobst & Cascino, 2018). 성공적인 치료를 위해서는 발작 발생에 핵심적인 뇌 영역인 발작성 병변대(EZ, Epileptogenic Zone) 를 정확히 규명하는 것이 필수적이다.
EZ를 차단하거나 제거하기 위한 주요 치료법은 크게 두 가지이다.
- 목표 부위에 전기 자극을 가하기 위한 전극 이식
- 병변이 포함된 뇌 조직을 외과적으로 절제
하지만 두 방법 모두 기능적으로 중요한 영역(예: 언어 피질 등) 을 손상시켜 인지 장애를 초래할 위험이 있다(Helmstaedter & Elger, 2013). 현재 EZ를 찾는 과정은 입원 중 장시간 관찰, 신경영상, 그리고 두개내 뇌전도(iEEG) 를 통한 발작 시작 영역(SOZ) 및 간발작 스파이크 식별을 종합적으로 활용한다. 그러나 SOZ 기반 절제만으로는 발작 자유를 보장하지 못한다(Rosenow & Lüders, 2001); 또한 두피 EEG, MRI, PET, MEG와 같은 비침습적 검사만으로는 충분히 정밀한 EZ 위치를 파악하기 어렵다(Jayakar 등, 2016).
임상 표준은 iEEG 를 이용해 병변 부위(EZ)와 보존해야 할 기능적 해부학적 영역을 동시에 식별하는 것이지만, 이 과정은 연장된 iEEG 기록을 수동으로 검토해야 하므로 시간 소모가 크고 평가자 간 일관성이 낮다(Spring 등, 2017).
기존 연구와 한계
최근 여러 연구에서 iEEG 데이터에 머신러닝을 적용하거나, 머신러닝 기반 신경생리학적 바이오마커를 정제해 뇌전증 연구를 촉진하려는 시도가 이어지고 있다. 예를 들어 네트워크 분석(Partamian 등, 2025)이나 합성곱 신경망(Convolutional Neural Network, Li 등, 2021b; Zhang 등, 2022b) 등이 있다. 그러나 대부분의 연구는 단일 기관의 제한된 코호트에만 검증되어 있어 임상 적용 가능성이 낮다. 공개된 데이터셋(Fedele 등, 2017; Zhang 등, 2025a; Bernabei 등, 2023a; Gunnarsdottir 등, 2022)도 포맷, 채널 명명법, 인구통계 메타데이터가 일관되지 않으며, 벤치마크 및 평가 지표도 표준화되지 않아 재현성과 비교가 어렵다. 이러한 불일치는 모델 성능을 다양한 연구 간에 일관되게 평가하고, 실제 임상 현장에 적용할 수 있는 신뢰할 만한 기준을 마련하는 데 큰 장애가 된다.
Omni‑iEEG: 대규모 표준화 iEEG 데이터셋
이러한 문제점을 해결하고자 우리는 Omni‑iEEG 라는 대규모 표준화 데이터셋을 구축하였다. 주요 특징은 다음과 같다.
| 항목 | 내용 |
|---|---|
| 규모 | 302명 환자, 총 178시간의 iEEG 기록 |
| 참여 기관 | UCLA, Wayne State University, University Hospital Zurich, University of Pennsylvania, University of Miami, NIH, Johns Hopkins Hospital 등 8개 주요 뇌전증 센터 |
| 데이터 종류 | 수술 전 국소성 뇌전증 환자의 iEEG (수술 전 데이터) |
| 전처리 | 각 기관별 표준 전처리 프로토콜을 그대로 적용하고, 임상 전문가가 포맷·채널·메타데이터를 일관되게 정제 |
| 익명화 | 기관 IRB 승인 또는 공개 도메인 계약에 따라 완전 익명화 수행 |
| 바이오마커 | 고주파 진동(HFO) 등 임상적으로 의미 있는 병변 바이오마커를 전문가가 광범위하게 주석 달음 |
| 데이터 포맷 | 원본 샘플링 레이트 유지, 필요 시 1000 Hz로 재샘플링하는 스크립트 제공 |
고주파 진동(HFO) 주석
HFO는 80–500 Hz 대역에서 4번 이상의 연속 진동을 보이며, 배경 활동과 명확히 구분되는 특징을 가진다. 임상적으로는 스파이크와 동시 발생하는 HFO(spkHFO) 가 가장 신뢰받는 병변 지표로 여겨진다(Bénar 등, 2010). 그러나 HFO가 병리적인지 생리적인지 구분하기 어려운 점, 잡음·아티팩트 혼입, 평가자 간 변동성 등이 여전히 문제이다(Nariai 등, 2018; Spring 등, 2017).
Omni‑iEEG는 다중 HFO 검출 알고리즘(Short‑Time Energy, MNI/Hospital detector, Hilbert detector)으로 후보 이벤트를 추출하고, 4명의 보드 인증 신경전문의가 각각 아티팩트, 병리적 HFO, 비병리적 HFO 로 라벨링하였다. 총 36,177개의 HFO 이벤트가 주석되었으며, 그 중 9,288건은 아티팩트, 7,709건은 비spkHFO, 19,180건은 spkHFO 로 구분된다(표 2 참고).
데이터 수집·정제 과정
다중 데이터셋 통합
- Open iEEG Dataset(Zhang 등, 2025a), Zurich iEEG HFO Dataset(Fedele 등, 2017), Epilepsy Interictal Dataset(Gunnarsdottir 등, 2022), HUP Dataset(Bernabei 등, 2023a) 등에서 원본 데이터를 확보.
- 각 데이터셋의 논문·데이터 사양을 교차 검증하여 일관성을 확인.
메타데이터 표준화
- 채널 명, 샘플링 레이트, 임상 변수(발작 시작 영역, 절제 영역, 수술 결과 등)를 통합 스키마로 변환.
- 임상 관행과 전문가 판단에 기반해 “SOZ”, “재절제 영역”, “보존 채널” 등을 명확히 정의.
품질 검증
- 보드 인증 신경전문의가 원본 iEEG와 메타데이터를 일괄 검토, 이상치·노이즈·채널 손실 여부 확인.
- 필요 시 채널 재명명·시간 동기화·전기적 아티팩트 제거 등 전처리 수행.
재샘플링
- 모델 학습·벤치마크를 위해 모든 신호를 1000 Hz 로 재샘플링(원본 샘플링 레이트는 메타데이터에 그대로 보존).
- 재샘플링 스크립트와 샘플링 레이트 정보를 제공하여 downstream 파이프라인에서 재현 가능하도록 함.
데이터 분할 및 평가 프로토콜
- 훈련/테스트 비율: 환자 단위로 60 % / 40 % 분할.
- 분할 기준: 각 기관별 환자 비율, 절제 결과, 채널 수, 기록 모달리티 등을 균등하게 배분.
- 다중 작업: 기본 HFO 분류 외에도 병변 부위 식별, 해부학적 위치 분류, 발작기·간발작기 구분, 수면·각성 상태 분류 등 4가지 탐색적 작업을 제공.
작업 1 – HFO 다중 클래스 분류
- 목표: 후보 HFO 이벤트를 spkHFO, non‑spkHFO, artifact 로 분류.
- 평가지표: 클래스 불균형을 고려한 macro‑averaged precision, recall, F1, macro‑AUC.
- 데이터: 36,177개 라벨링된 이벤트 (9,288 artifact, 7,709 non‑spkHFO, 19,180 spkHFO).
작업 2 – 병변 부위 식별 (Pathological Brain Region Identification)
- 채널 레벨: SOZ 채널을 양성, 발작 자유 환자의 보존 채널을 음성으로 설정.
- 평가지표: macro‑precision, macro‑recall, specificity, ROC‑AUC. 특히 recall(병변 누락 최소화)과 specificity(정상 조직 오절제 방지)에 중점.
- 수술 결과 연계: 각 환자에 대해 절제 비율(RR) = (절제된 채널의 병변 점수 합) / (전체 채널의 병변 점수 합) 을 계산하고, RR과 수술 결과(Engel I vs. II‑IV) 사이의 ROC‑AUC를 평가.
- 코호트: 총 252명, 21,250개 채널 (2,162 SOZ, 19,088 정상). 절제 치료를 받은 환자는 233명이며, 그 중 154명이 수술 후 발작 자유.
탐색적 작업
| 작업 | 목표 | 임상·기술적 의의 |
|---|---|---|
| 해부학적 위치 분류 | 짧은 iEEG 구간으로 전극 위치 예측 | 기능적 매핑·수술 계획 효율화 |
| 발작기 구분 | 간발작 vs. 발작 구간 식별 | 발작 시작 영역 탐색·치료 효과 평가 |
| 수면‑각성 분류 | iEEG를 수면·각성 상태로 구분 | 수면 주기와 발작·간발작 연관성 파악 |
베이스라인 모델
HFO 이벤트 기반
- 기존 연구(Zhang 등, 2024)의 PyHFO 모델을 Omni‑iEEG 주석에 맞게 재학습한 PyHFO‑Omni.
- eHFO(Monsoor 등, 2023)와 같은 약한 지도 학습 기반 모델도 비교.
시계열(시간 도메인) 기반
- LSTM + Attention(Huang 등, 2023)
- PatchTST 기반 Transformer(Nie 등, 2023)
- TimesNet(Wu 등, 2023a)
성능
- 표 4에 따르면 PyHFO‑Omni가 가장 높
이 글은 AI가 자동 번역 및 요약한 내용입니다.