헬스프로세스AI: 의료 프로세스 마이닝을 위한 LLM 기반 통합 프레임워크

헬스프로세스AI: 의료 프로세스 마이닝을 위한 LLM 기반 통합 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

헬스프로세스AI는 기존 파이썬(PM4PY)·R(bupaR) 라이브러리를 래핑하고, 다중 대형 언어 모델(LLM)을 연계해 의료 프로세스 마이닝 결과를 자동 해석·보고서화하는 프레임워크이다. 시술·패혈증 진행 데이터에 적용해 4가지 시나리오를 검증했으며, Claude Sonnet‑4와 Gemini 2.5‑Pro가 가장 높은 일관성 점수를 얻었다. 기술적 구현과 교육용 모듈을 제공해 임상의와 데이터 과학자 모두가 복잡한 프로세스 마이닝을 손쉽게 활용하도록 설계되었다.

상세 분석

헬스프로세스AI는 의료·역학 분야의 프로세스 마이닝 장벽을 해소하기 위해 6개의 모듈로 구성된 계층형 아키텍처를 제시한다. 첫 번째 모듈은 CSV 기반 이벤트 로그를 국제 표준(예: HL7, FHIR)과 일치하도록 컬럼명을 정규화하고, 결측·중복 검증을 자동화한다. 두 번째 모듈은 PM4PY와 bupaR을 추상화해 DFG, Heuristics Miner, Alpha, Inductive Miner 등 다양한 탐색 알고리즘을 의료 특화 파라미터와 함께 제공한다. 특히 임상 경로 발견을 위해 가이드라인 기반 제약조건을 삽입하고, 인과 추론을 활용한 치료 효과 분석을 옵션으로 포함한다.

세 번째 모듈은 OpenRouter를 통해 Anthropic Claude Sonnet‑4, OpenAI GPT‑4.1, Google Gemini 2.5‑Pro, DeepSeek R1, X‑AI Grok‑4 등 5개의 최신 LLM을 동시 호출한다. 각 모델에 맞춘 프롬프트 엔지니어링이 핵심이며, 임상 용어 사전과 메타데이터를 프롬프트에 삽입해 의료 정확성을 높인다. 네 번째 모듈은 다중 모델 합의를 위해 투표 기반 앙상블과 인터‑레이터 신뢰도(Kappa) 측정을 적용한다. 이를 통해 모델 간 의견 차이를 정량화하고, 불확실성 구간을 보고서에 명시한다.

다섯 번째 모듈은 고급 분석 기능을 제공한다. 여기에는 임상 가이드라인과의 적합도 검증, 머신러닝 기반 환자 군집화, 병목 현상 탐지, 예측적 프로세스 모니터링 등이 포함된다. 현재 구현에서는 시연 목적에 한해 제한된 기능만 사용했으며, 향후 임상 시험 단계에서 확장될 예정이다.

평가 단계에서는 시드 데이터(PhysioNet Challenge)와 공개된 SCREAM 데이터베이스를 활용해 4개의 PoC 시나리오를 실행했다. 각 시나리오마다 프로세스 모델 생성, LLM 기반 해석, 보고서 자동 생성까지 전 과정을 검증했으며, 실행 시간·메모리 사용량은 일반적인 워크스테이션 수준에서 충분히 처리 가능했다. LLM 평가에서는 동일 프레임워크 내에서 5개의 독립 LLM을 자동 평가자로 활용해 ‘임상 정확성’, ‘프로세스 이해도’, ‘실행 가능 인사이트’ 등 6가지 기준을 점수화했다. Claude Sonnet‑4가 3.79/4.0, Gemini 2.5‑Pro가 3.65/4.0으로 가장 높은 일관성을 보였으며, GPT‑4.1은 전반적인 정확도는 높지만 비용·응답 지연 측면에서 다소 뒤처졌다.

핵심 인사이트는 다음과 같다. (1) 다중 LLM 연계는 단일 모델이 놓칠 수 있는 의료 용어 해석 오류를 보완한다. (2) 프로세스 마이닝 결과를 자연어 보고서로 변환함으로써 비전문가도 결과를 직관적으로 이해할 수 있다. (3) 오픈소스 기반 라이브러리와 클라우드 LLM을 결합한 구조는 비용 효율성과 확장성을 동시에 만족한다. (4) 현재는 임상 전문가에 의한 최종 검증이 누락돼 실용화 단계에서는 별도 검증 파이프라인이 필요하다. 전반적으로 헬스프로세스AI는 기술적 복잡성을 추상화하고 교육용 문서·튜토리얼을 제공함으로써 의료 현장의 데이터 과학 도입 장벽을 크게 낮춘다.


댓글 및 학술 토론

Loading comments...

의견 남기기