CAMEL: 심장 전기 신호를 읽고 미래를 예측하는 최초의 ECG 언어 모델
📝 Abstract
Electrocardiograms (ECG) are electrical recordings of the heart that are critical for diagnosing cardiovascular conditions. ECG language models (ELMs) have recently emerged as a promising framework for ECG classification accompanied by report generation. However, current models cannot forecast future cardiac events despite the immense clinical value for planning earlier intervention. To address this gap, we propose CAMEL, the first ELM that is capable of inference over longer signal durations which enables its forecasting capability. Our key insight is a specialized ECG encoder which enables cross-understanding of ECG signals with text. We train CAMEL using established LLM training procedures, combining LoRA adaptation with a curriculum learning pipeline. Our curriculum includes ECG classification, metrics calculations, and multi-turn conversations to elicit reasoning. CAMEL demonstrates strong zero-shot performance across 6 tasks and 9 datasets, including ECGForecastBench, a new benchmark that we introduce for forecasting arrhythmias. CAMEL is on par with or surpasses ELMs and fully supervised baselines both in- and out-of-distribution, achieving SOTA results on ECGBench (+7.0% absolute average gain) as well as ECGForecastBench (+12.4% over fully supervised models and +21.1% over zero-shot ELMs).
💡 Analysis
**
1. 연구 배경 및 필요성
- 임상적 가치: 부정맥·심실성 부정맥 등 급성 심장 사건은 조기 경보가 가능하면 치료 개입을 통해 사망률을 크게 낮출 수 있다. 기존 ECG 자동분류 모델은 현재 상태만을 알려주며, “언제” 위험이 발생할지를 제시하지 못한다.
- 기술적 한계: 기존 ELM은 10초 길이, 12‑lead 고정 입력에 제한돼 장시간 시계열 패턴을 포착하기 어렵다. 또한, 완전 지도 CNN 기반 모델은 고정 입력 길이와 사후 해석에 의존해 일반화가 제한적이다.
2. 핵심 기법
| 요소 | 설계·핵심 아이디어 | 기대 효과 |
|---|---|---|
| ECG 토큰화 인코더 | 1초 구간을 64‑dim 벡터로 변환하는 3‑layer CNN + 선형 프로젝션 | 긴 시계열을 토큰 단위로 LLM에 삽입, 입력 길이·리드 수 유연성 확보 |
| Lead‑aware Attention Mask | 동일 시간대(동시) 토큰 간 양방향 어텐션 허용, 리드 경계 토큰과 연결 | 다리드 간 상관관계 학습, 심전도 물리적 구조 반영 |
| LoRA‑adapted MedGemma‑4B | 파라미터 효율적인 저랭크 적응 (r=128) | 대형 LLM의 의료 지식 활용, 학습 비용 절감 |
| 5‑Stage Curriculum | 자동인코더 → 간단 QA → 통계 기반 QA → 다회 대화 → 예측 보고서 | 단계별 난이도 상승으로 모델이 점진적으로 “이해 → 추론 → 예측” 능력 습득 |
| ECGForecastBench | 정상 sinus rhythm → 미래 부정맥 라벨링, 통계·임상 근거 제공 | 예측 성능을 객관적으로 측정할 수 있는 최초 벤치마크 |
3. 실험 및 결과
- 제로샷 전반적 성능: 6개 과제·9개 데이터셋에서 기존 ELM 및 완전 지도 모델 대비 평균 F1 점수 7–12% 상승. 특히 ECGForecastBench에서 +12.4% (제로샷 대비 +21.1%)는 예측 능력이 기존 모델을 크게 앞선다는 강력한 증거.
- 장시간 입력 효능: 30초~5분 길이 ECG를 입력했을 때, 모델이 RMSSD, RR‑interval, PAC 수 등 통계치를 자동 추출하고 이를 근거로 미래 AFIB 발생을 정확히 예측함을 시각화(Figure 1)로 제시.
- 비교 실험: 동일 백본(Low‑rank LoRA)으로 훈련된 “CAMEL‑Base”(분류·대화)와 “CAMEL‑Forecast”(예측) 간 성능 차이를 분석, 예측 전용 파인튜닝이 특정 과제에서는 약간의 대화 능력 저하를 보이지만 핵심 추론 능력은 유지됨을 확인.
4. 강점
- 시간적 확장성: 1초 토큰화와 특수 마스크 설계로 수백 초에 달하는 ECG를 한 번에 처리 가능.
- 멀티모달 일관성: ECG와 텍스트가 동일 토큰 공간에 존재해 자연스러운 “질문‑답변‑보고서” 흐름을 구현.
- 임상 근거 기반 예측: 통계값을 명시적으로 추출·활용해 모델의 설명 가능성을 크게 향상.
- 커리큘럼 학습: 단계별 데이터 생성 파이프라인이 재현 가능하고, 새로운 임상 과제(예: 심근경색 위험 예측)에도 쉽게 확장 가능.
5. 한계 및 개선점
| 한계 | 구체적 내용 | 개선 방향 |
|---|---|---|
| 데이터 다양성 | 학습에 사용된 1 billion ECG 세그먼트는 주로 공개 데이터(주로 12‑lead, 단일 국가) | 다국가·다인구집단 데이터 확보, 노이즈·아티팩트가 많은 실제 병원 환경 데이터 포함 |
| 리드 손실 상황 | 리드 드롭아웃을 학습에 포함했지만, 실제 장비 고장·부분 리드 손실 시 성능 저하 가능성 | 리드 복원(인페인팅) 모듈 도입, 멀티‑모달(영상·바이오마커)와의 연계 학습 |
| 예측 시계열 길이 | 현재는 고정된 “T+3분” 등 짧은 시간대 예측에 초점 | 장기 예측(수시간~수일) 및 위험도(확률) 출력 모델링 필요 |
| 실시간 적용 | 1초 토큰당 CNN+LLM 처리 비용이 아직 고가 GPU에 의존 | 경량화된 CNN·Quantized LLM, Edge 디바이스 최적화 연구 필요 |
| 평가 지표 | 주로 F1·정확도에 집중, 임상적 “조기 경보” 효과는 별도 검증 미비 | 실제 환자 코호트에서 조기 치료 개입 효과(생존율, 입원일수 감소) 측정하는 전향적 임상시험 설계 |
6. 향후 연구 방향
- 멀티‑모달 통합: 혈압·산소포화도 등 생리 신호와 결합해 복합 위험 모델 구축.
- 확률적 예측: 베이지안 LLM 또는 온도 조절을 활용해 “예측 확률”을 출력, 임상의가 위험도 기반 의사결정에 활용 가능하도록 설계.
- 설명 가능성 강화: 추출된 통계값 외에 “시각적” ECG 파형 강조(heatmap)와 텍스트 설명을 동시 제공하는 인터페이스 개발.
- 전이 학습: CAMEL을 다른 심전도 기반 과제(예: 심근경색 진단, 심박변이도 분석)로 전이시켜 범용 의료 시계열 모델로 확장.
- 규제·윤리 검토: 의료 AI 규제(예: FDA, EU MDR)와 데이터 프라이버시(GDPR) 준수를 위한 검증 프로세스 구축.
7. 임상·학술적 파급 효과
- 조기 경보 시스템: ICU·병동에서 실시간 ECG 스트리밍을 CAMEL에 입력하면, “3분 내 AFIB 위험 ↑”와 같은 알림을 제공해 항응고제 투여 시점을 앞당길 수 있다.
- 교육·연구 도구: 의료인 교육용 시뮬레이터에 CAMEL을 탑재하면, “왜 이 환자는 부정맥으로 진행될 가능성이 높은가?”를 텍스트와 시각적 근거로 설명해 학습 효율을 높인다.
- 표준 벤치마크: ECGForecastBench는 향후 다른 모델·알고리즘의 예측 성능을 비교하는 표준이 될 가능성이 크다.
**
📄 Content
전기심장도(ECG)와 ECG 언어 모델(ELM)에 관한 연구 요약 및 CAMEL 제안
1. 서론
전기심장도(ECG)는 심장의 전기 활동을 다차원으로 기록한 자료이며, 심근경색, 부정맥 및 기타 심장 이상을 진단·분류하는 핵심 도구이다(Kaplan Berkaya 등, 2018; Savonitto 등, 1999). 전통적인 기호 알고리즘·통계 모델에서부터 CNN에 이르기까지, 자동화된 ECG 분류 기술은 학술적 연구 단계에서 벗어나 GE Marquette 12SL과 같은 상용 시스템을 통해 병원·외래 환경에 널리 보급되고 있다(GE Healthcare, 2019).
최근에는 ECG와 텍스트를 동시에 처리할 수 있는 기초 모델(foundation model) 이 등장했으며, 이를 **ECG Language Model(ELM)**이라고 부른다. ELM은 ECG 표현 학습과 자연어 생성 능력을 결합해 해석 가능한 분류 결과와 보고서를 자동으로 생성한다(Liu 등, 2024b,a; Wang 등, 2025; Lan 등, 2025). 그러나 현재 존재하는 ELM은 분류에만 초점을 맞추고 있어 환자의 미래 상태를 예측하지 못한다. 따라서 조기 개입을 위한 지원이 제한적이다.
2. 문제 정의
심장 사건을 예측(forecasting) 하는 것은 AI 기반 심장 진료의 핵심 과제이다. 분류와 달리 예측은 ECG에서 미세하고 예후를 나타내는 패턴을 포착해 향후 발생 가능한 부정맥·심정지 등을 사전에 경고해야 한다. 이러한 조기 경고는 의료진이 적절한 치료를 사전에 시행함으로써 환자 예후를 크게 개선할 수 있다(Pollack 등, 2016; Soar 등, 2021). 기존에는 고전적인 머신러닝·CNN 기반 모델이 제한된 길이(고정 길이) 입력에 대해 완전 지도 학습을 수행했으며, 사후 설명(post‑hoc) 방식으로만 해석 가능했다. 이는 다양한 임상 상황에 일반화하기 어렵게 만든다.
반면, ELM은 임상 지식으로 사전 학습된 대형 언어 모델(LLM) 백본을 갖추고 있어 여러 과제에 걸쳐 일반화가 가능하고, 예측 결과와 함께 자연어 형태의 설명을 제공한다는 장점이 있다.
3. 제안 모델: CAMEL
이러한 도전을 해결하고자 우리는 CAMEL (Cardiac Autoregressive Model for ECG Language‑Modeling) 을 제안한다. CAMEL은 긴 시간적 컨텍스트를 지원하는 최초의 범용 ELM이다. 기존 벤치마크가 10초 길이의 ECG 조각을 분류하는 데에 국한된 반면, 우리는 ECGForecastBench 라는 새로운 벤치마크를 구축하여 정상 동성 리듬을 입력으로 미래 부정맥을 예측하도록 설계하였다.
CAMEL은 다음과 같은 핵심 아이디어를 기반으로 한다.
- 신호 임베딩과 텍스트 임베딩을 토큰 수준에서 결합한다.
- ECG의 각 1초 구간을 하나의 토큰으로 인코딩함으로써, 임의 길이·임의 리드 구성을 가진 신호 시퀀스를 텍스트 프롬프트와 자유롭게 교차 배치할 수 있다.
- 이를 통해 입력 길이와 리드 구성이 유연해지며, 실제 임상 현장에서 흔히 발생하는 불완전한 리드 세트에도 대응 가능하다.
이 설계는 기존 ELM이 10초·12리드에 제한되는 것과는 근본적으로 다르다(표 1).
4. 학습 커리큘럼
CAMEL을 효과적으로 학습시키기 위해 5단계 커리큘럼을 도입하였다.
| 단계 | 목표 | 주요 학습 내용 |
|---|---|---|
| 1️⃣ Autoencoder | 강건한 ECG 표현 학습 | 1초·단일 리드 신호를 입력으로 MSE 기반 재구성 |
| 2️⃣ 다중 선택·단답 | 기본 분류 능력 확보 | 2천만 개의 짧은 질문·답변 (Harvard‑Emory 데이터) |
| 3️⃣ 통계 질문 | ECG 통계량 이해 | ECGDeli 라이브러리로 추출한 RR, HR, QRS 등 |
| 4️⃣ 다턴 대화 | 통합 추론·보고서 생성 | GEM 프레임워크 기반 다턴 대화 데이터 (통계·진단 연계) |
| 5️⃣ 예측 | 미래 리듬 전이 예측 | Icentia11k 데이터 활용, AFIB·AFL 전이 라벨링 및 근거 기반 서술 생성 |
각 단계는 이전 단계에서 학습한 능력을 점진적으로 확장한다. 특히 5단계에서는 “시간‑창”을 고려한 증거 기반 서술을 생성하도록 훈련한다(그림 1).
5. 모델 구조
5.1 전체 아키텍처
CAMEL은 두 주요 컴포넌트로 구성된다.
- 토크나이징 인코더 – 1초 ECG 구간을 벡터(d = 64)로 변환하는 3‑layer CNN.
- LoRA‑adapted LLM – MedGemma‑4B(2025)를 기반으로 하며, ECG 임베딩을 텍스트 토큰 공간(h = 2560)으로 선형 변환 후 결합한다.
이 두 컴포넌트는 Late‑Fusion 형태로 연결되어, ECG‑중심 다턴 대화를 자연스럽게 처리한다.
5.2 ECG 인코더 상세
- 입력: 단일 리드 ECG, 샘플링 레이트 N Hz (통일을 위해 N = 256 Hz).
- 1초 구간을 x_ecg ∈ ℝⁿ 로 표현하고, f_θ : ℝⁿ → ℝᵈ (d = 64) 로 매핑.
- 결과 임베딩은 선형 프로젝션 레이어를 거쳐 LLM 토큰 차원에 맞춘다.
5.3 텍스트·ECG 통합
각 리드 ℓ에 대해 <ecg_start_ℓ>, <ecg_end_ℓ> 특수 토큰을 삽입하고, 그 사이에 1초 임베딩 시퀀스를 배치한다. 텍스트 토큰은 기존 MedGemma 토크나이저가 생성한 임베딩과 동일한 차원에 매핑된다. 최종 입력 시퀀스는
<ecg_start_1> e₁ e₂ … e_T <ecg_end_1> … <ecg_start_L> … <ecg_end_L> 텍스트 토큰 …와 같이 구성된다.
5.4 리드‑인식 어텐션 마스크
ECG는 시간 t에서 모든 리드가 동시에 전기 신호를 측정한다는 특성을 활용한다. 따라서 동일 시점 t에 해당하는 토큰들은 양방향(bidirectional) 으로 서로 어텐션할 수 있도록 마스크를 설계하였다. 또한 리드 경계 토큰은 해당 리드의 모든 임베딩을, 임베딩은 자신이 속한 리드의 경계 토큰을 자유롭게 참조한다. 이는 인트라‑리드·인터‑리드 관계를 학습하면서도 자동 회귀 텍스트 생성에 필요한 순차적 의존성을 유지한다.
6. 데이터 전처리
- 50/60 Hz와 0.3 Hz 밴드패스 필터 적용 후 256 Hz로 재샘플링.
- 5 초 이상 지속되는 0 또는 NaN 값이 있는 구간은 제외하고, 남은 NaN은 0으로 대체.
7. 실험 및 결과
7.1 평가 설정
- 백본: MedGemma‑4B‑instruct (Sellergren 등, 2025)
- ECG 인코더: 3‑layer CNN, d = 64 → SLP → h = 2560
- 학습 인프라: 32 대의 NVIDIA B200 GPU, LoRA(r = 128) 적용
7.2 예측(Forecasting)
Icentia11k 데이터(단일 리드, NORM/AFIB/AFL 라벨)에서 **시간‑전이(h = 1, 3, 5, 10 분)**와 입력 길이(l = 10, 30, 60, 120, 300, 600 초) 별 F1 점수를 측정하였다. CAMEL‑Forecast는 모든 베이스라인을 10 % 이상 앞섰으며, 특히 입력 길이가 길어질수록(F1 ↑) 예측 정확도가 크게 향상되었다.
7.3 분류(Classification)
7개 데이터셋(PTB‑XL, CSN, CODE‑15%, CPSC‑2018, HEEDB, Icentia, Penn)에서 제로‑샷 F1 및 선형 프로빙 AUROC를 평가하였다. 전체 17개 과제 중 7개에서 최고 성능을 기록했으며, 특히 PTB‑XL·CODE‑15%·HEEDB에서 경쟁력 있는 점수를 얻었다. 다중 라벨(HEEDB, CSN) 과제에서는 LLM 기반 모델이 다소 약점이 있었지만, CAMEL은 비LLM 모델(MELP, MERL)과 견줄 만한 성능을 보였다.
7.4 보고서 생성(Report Generation)
PTB‑XL·MIMIC‑IV‑ECG에서 GPT‑5를 이용해 진단 정확도, 분석 완전성, 지시 준수를 평가하였다. BLEU‑1/4, METEOR, ROUGE, BERT‑F1 등 전통 NLP 지표에서도 기존 LLM 기반 베이스라인(PULSE, GEM)을 앞섰다.
7.5 질문 응답·다턴 대화·그라운딩
- ECGBench·ECG‑QA에서 정확도·해밍 스코어를 측정, CAMEL‑Base가 최고 수준을 기록.
- 다턴 대화(PTB‑XL 보고서 기반)에서는 GPT‑5 평가를 통해 진단 정확도·분석 완전성·지시 준수 모두에서 우수함을 확인.
- 그라운딩(2K ECG 통계)에서는 RMSE가 가장 낮아, 실제 ECG 통계값을 정확히 추정함을 입증하였다.
8. 결론 및 기여
- CAMEL 아키텍처를 제안하여, 긴 시간적 ECG 컨텍스트와 가변 리드 구성을 동시에 처리할 수 있는 최초의 범용 ELM을 구현하였다.
- ECGForecastBench라는 새로운 벤치마크를 구축하여, 정상 동성 리듬으로부터 미래 부정맥을 예측하는 과제를 제공하였다.
- 5단계 커리큘럼을 설계·실행함으로써, 자동 인코더 → 분류 → 통계 → 다턴 대화 → 예측 순으로 모델의 이해·추론·예측 능력을 단계적으로 강화하였다.
- Zero‑shot 성능에서 기존 베이스라인을 전반적으로 능가했으며, 특히 예측 과제에서 10 % 이상 향상된 F1 점수를 달성하였다.
CAMEL은 임상 현장에서의 조기 경고와 해석 가능한 보고서 생성
이 글은 AI가 자동 번역 및 요약한 내용입니다.