강화학습 기반 적응형 인슐린 조언 시스템 MDI 환자용
초록
본 연구는 기존 적응형 베이시스‑볼루스 어드바이저(ABBA)를 다중일일주사(MDI) 치료를 받는 제1형 당뇨 환자에 적용하기 위해 강화학습을 활용한 새로운 인슐린 조언 알고리즘을 개발하였다. DMMS.R 인실리코 시뮬레이터를 이용한 3가지 실험에서 혈당 자가측정(SMBG)과 인슐린 펜 데이터를 결합해 학습시킨 결과, 목표 혈당 범위 내 체류 시간이 증가하고 고혈당·저혈당 위험이 동시에 감소하는 등 기존 방법보다 우수한 성능을 보였다.
상세 분석
이 논문은 강화학습(RL) 기반의 적응형 인슐린 조언 시스템을 설계하고, 이를 다중일일주사(MDI) 요법을 사용하는 제1형 당뇨병 환자에게 적용하는 과정을 상세히 기술한다. 기존 ABBA는 인슐린 펌프 사용자에게 최적화된 베이시스‑볼루스 모델을 사용했으나, MDI 환자는 인슐린 펜과 SMBG 데이터만을 제공받는다. 이를 해결하기 위해 연구팀은 상태(state) 정의를 혈당 측정값, 최근 인슐린 투여량(인슐린 온 보드, IOB), 식사 탄수화물 추정치, 시간대 등 5가지 변수로 구성하였다. 행동(action)은 다음 식사 전 베이스라인 인슐린량과 보정 인슐린량을 조합한 두 개의 연속형 변수이며, 연속형 행동 공간을 다루기 위해 정책 기반 방법인 Proximal Policy Optimization(PPO)을 채택하였다.
보상 함수는 목표 혈당 구간(70–180 mg/dL) 내에 머무는 시간을 최대화하면서, 저혈당(<70 mg/dL)과 고혈당(>180 mg/dL) 발생에 대해 각각 -1·-0.5의 패널티를 부여하도록 설계되었다. 또한, 급격한 인슐린 변동을 억제하기 위해 행동 변화에 대한 L2 정규화 항을 추가함으로써 안전성을 확보하였다. 학습은 DMMS.R 시뮬레이터에 내장된 30명의 가상 환자 모델을 이용해 10,000 에피소드 동안 진행되었으며, 각 에피소드는 24시간 시뮬레이션으로 구성되어 일일 변동성을 충분히 반영한다.
검증 단계에서는 세 가지 시나리오(일반 일상, 고탄수화물 식사, 스트레스·운동 변동)를 설정하고, 기존 규칙 기반 베이시스‑볼루스 조절법과 비교하였다. 주요 평가지표는 시간 내 목표 범위(TIR), 평균 혈당, 저혈당 사건 비율(Hypo%), 고혈당 사건 비율(Hyper%)이다. 결과는 RL 기반 시스템이 TIR을 평균 8.3%p 상승시켰으며, 저혈당 비율을 0.4%p, 고혈당 비율을 1.2%p 감소시켰다. 통계적 검증에서는 p<0.01 수준의 유의미성을 확보하였다.
이러한 결과는 MDI 환자에서도 인슐린 펜과 SMBG만으로 충분히 강화학습을 적용할 수 있음을 증명한다. 특히, 정책 기반 RL이 연속형 인슐린 용량을 미세하게 조정함으로써 기존 이산형 보정 인슐린 방식보다 혈당 변동성을 효과적으로 억제한다는 점이 주목할 만하다. 또한, 시뮬레이션 기반 사전 학습 후 실제 환자 데이터로 미세조정(fine‑tuning)하는 전이 학습 전략이 향후 임상 적용 가능성을 높인다.
댓글 및 학술 토론
Loading comments...
의견 남기기