다양한 체형·피부톤에서 PPG 기반 심박수 정확도와 형평성 검증
초록
58명의 히스패닉 성인(피부톤 III‑V)에게 Apple, Fitbit, Samsung, Garmin 손목형 웨어러블을 착용하고, 순환식 자전거 운동(중·고강도) 중 Polar H10 ECG와 비교하였다. 모든 기기가 평균적으로 기준값과 차이를 보였으며, Apple과 Garmin이 MAE·MAPE가 가장 낮았다. BMI와 피부톤이 어두울수록 MAPE가 증가했으며, 특히 고BMI·어두운 피부군에서 오류가 크게 나타났다. 결과는 현재 상용 PPG 알고리즘이 인구집단 간 형평성을 확보하지 못함을 시사한다.
상세 분석
본 연구는 PPG 기반 손목형 웨어러블의 심박수 측정 정확도를 인종·체형 다양성을 고려해 체계적으로 평가한 최초 사례 중 하나이다. 58명의 히스패닉 성인(평균 연령 23 세, 평균 BMI ≈ 30 kg/m²)을 대상으로 Apple Watch Series 8, Garmin Forerunner 955, Fitbit Sense 2, Samsung Galaxy Watch 5 네 기기의 HR 추정값을 Polar H10 chest‑strap ECG와 비교하였다. 실험은 ANSI/CTA‑2065 표준을 변형한 10 분 순환식 자전거 프로토콜(5 분 휴식 → 2 분 중강도(64‑76% HRmax) ↔ 2 분 고강도(77‑95% HRmax) 교대 → 5 분 회복)으로 진행했으며, 각 구간에서 HR 변동을 정밀히 기록했다.
오차 평가지표는 MAE, MAPE, 편향(Bias), ICC를 사용했으며, 비정규성·이분산을 고려해 Kruskal‑Wallis, Wilcoxon, Scheirer‑Ray‑Hare 등 비모수 검정을 적용했다. 결과는 모든 기기가 통계적으로 0 % 오차(완벽 일치)와 차이가 있음을 보여준다(p < .001). Apple과 Garmin은 평균 MAE ≈ 3–4 bpm, MAPE ≈ 3 % 수준으로 상대적으로 낮은 편차를 보였으며, ICC > 0.90으로 높은 신뢰도를 유지했다. 반면 Fitbit과 Samsung은 MAE ≈ 6–8 bpm, MAPE ≈ 6 % 이상으로 오류가 크게 나타났고, ICC는 0.80 이하로 감소했다.
BMI와 피부톤이 오차에 미치는 영향을 분석한 결과, BMI가 30 kg/m² 이상인 그룹에서 MAPE가 평균 4.5 %에서 7.2 %로 상승했으며, Fitzpatrick V(가장 어두운) 참가자에서는 MAPE가 8 %에 육박했다. 특히 고BMI·피부톤 V 조합에서는 Fitbit의 MAPE가 12 %까지 증가해 실용적 사용에 심각한 제한을 드러냈다. 이는 기존 PPG 알고리즘이 멜라닌 흡수와 조직 두께 증가에 따른 광학 신호 감쇠를 충분히 보정하지 못함을 의미한다.
통계적으로는 피부톤·BMI 간 상호작용이 Scheirer‑Ray‑Hare 검정에서 유의(p < .05)했으며, Spearman 상관분석에서는 BMI(ρ = 0.42, p < .01)와 피부톤(ρ = 0.35, p < .05)이 MAPE와 양의 상관관계를 보였다. 연령·성별·체지방률은 유의미한 영향을 미치지 않았다.
한계점으로는 샘플이 히스패닉 성인에 국한돼 인종·연령 다양성이 부족하고, 실험 환경이 정적인 실내 사이클링에 한정돼 실제 일상 활동 중 발생하는 급격한 움직임을 반영하지 못한다는 점이다. 또한, Empatica E4 데이터가 제외돼 5대 기기 중 4대만 비교했으며, 각 기기의 펌웨어 버전 차이가 결과에 미칠 가능성을 완전히 배제하지 못했다.
이러한 결과는 현재 상용 웨어러블이 고BMI·어두운 피부톤 인구에 대해 체계적인 편향을 가지고 있음을 보여준다. 의료·피트니스 분야에서 웨어러블 데이터를 활용할 때, 인구집단 간 형평성을 확보하기 위한 알고리즘 보정 및 하드웨어 설계 개선이 시급히 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기