PPG 기반 대동맥판 질환 검출을 위한 생리학 기반 자기지도 학습
초록
본 연구는 대규모 라벨이 없는 PPG 데이터를 활용해 대동맥 협착증(AS)과 대동맥 역류(AR) 스크리닝 모델을 구축하는 새로운 자기지도 학습 프레임워크(PG‑SSL)를 제안한다. 임상 지식을 기반으로 정의한 PPG 형태학적 페노타입을 이용해 프리텍스트 분류 과제를 설계하고, 170 000개 이상의 무라벨 샘플로 사전 학습한다. 이후 이중‑브랜치 게이트‑퓨전 구조로 소량의 라벨 데이터만을 사용해 미세조정하면, AS와 AR에 대해 각각 AUC 0.765, 0.776을 달성하며 기존 감독 학습 대비 유의미한 성능 향상을 보인다. 다변량 분석을 통해 모델 출력이 기존 위험 인자를 보정한 후에도 독립적인 디지털 바이오마커임을 확인하였다.
상세 분석
본 논문은 의료 AI 분야에서 라벨 부족 문제를 해결하기 위한 새로운 패러다임을 제시한다. 먼저, 영국 바이오뱅크에서 수집한 170 702명의 PPG 신호(10~15 초, 100 샘플 포인트) 중 라벨이 없는 170 000여 개를 대규모 사전 학습 데이터로 활용한다. 라벨이 있는 데이터는 ICD‑10 코드와 자기보고를 통해 AS(245명)와 AR(213명) 환자를 정의하고, 혼합 질환(81명)도 포함한다. 라벨 데이터는 훈련·검증·테스트 64:16:20 비율로 분할하였다.
핵심 기여는 ‘생리학‑가이드 자기지도 학습(PG‑SSL)’이다. 임상에서 알려진 대동맥판 질환의 맥동 패턴—예를 들어 AS에서의 “pulsus parvus et tardus”, AR에서의 “water‑hammer pulse”—을 정량화 가능한 PPG 형태학적 페노타입(상승 시간, 하강 시간, 피크‑투‑피크 간격, 진폭 비율 등)으로 변환한다. 이 페노타입을 pseudo‑label 로 사용해 대규모 무라벨 데이터에 대해 다중 클래스 분류 프리텍스트 과제를 만든다. 이렇게 하면 모델은 개별 샘플의 노이즈에 얽매이지 않고, 전반적인 혈역학적 변이를 포착하도록 학습된다.
사전 학습된 인코더는 이중‑브랜치 구조에 삽입된다. 하나의 브랜치는 전통적인 1‑D CNN(ResNet‑like)으로 로컬 패턴을 추출하고, 다른 브랜치는 Transformer‑ 기반 어텐션 모듈로 장기 의존성을 모델링한다. 두 브랜치의 출력은 게이트‑퓨전 레이어를 통해 동적으로 가중합되며, 이는 각 환자별 생리학적 특성(예: 연령, 혈압)과의 상호작용을 학습한다.
미세조정 단계에서는 라벨이 있는 5 460명 데이터만을 사용한다. 비교 대상으로는 동일한 아키텍처를 감독 학습으로 학습한 모델, ResNet1D‑18, TimesNet, Attn‑LRCN 등이 있다. 실험 결과, PG‑SSL 기반 PiLA 모델은 AS에서 AUC 0.7645, AR에서 AUC 0.7756을 기록했으며, 특히 특이도 60%에서 민감도 77.6%·78.6%를 달성해 임상 스크리닝에 충분히 활용 가능함을 보였다. Calibration curve는 예측 확률이 실제 유병률과 거의 일치함을 보여 모델의 신뢰성을 확인했다. Enrichment factor 분석에서는 상위 5% 위험군에 대해 AS는 4.68배, AR은 3.45배의 검출 효율 향상을 나타냈다.
또한, 일반적인 자기지도 학습 기법(Contrastive Learning인 SimCLR, Signal Reconstruction 등)을 동일 데이터에 적용했을 때는 성능 향상이 미미하거나 오히려 감소함을 보고하였다. 이는 의료 신호가 갖는 도메인‑특수성(노이즈, 개인별 변이) 때문에 순수 데이터‑주도 프리텍스트보다 임상 지식이 반영된 프리텍스트가 더 효과적임을 시사한다.
다변량 Cox 회귀 분석에서는 PiLA 출력 점수가 연령, 고혈압, 당뇨 등 기존 위험 인자를 보정한 후에도 독립적인 예측 인자로 작용함을 확인했다. 이는 디지털 바이오마커로서의 잠재력을 강조한다.
전반적으로 본 연구는 (1) 임상 지식을 정량화해 대규모 무라벨 데이터에 적용하는 방법론, (2) 이중‑브랜치 게이트‑퓨전 아키텍처가 라벨이 적은 상황에서도 과적합을 방지하고 일반화 능력을 높이는 구조, (3) 실제 대규모 코호트(UK Biobank)를 활용한 엄격한 검증을 통해 실용성을 입증한 점에서 의의가 크다. 향후 Wearable 디바이스와 연계해 실시간 대동맥판 질환 스크리닝 시스템으로 확장할 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기