학술 의료기관에서 LLM 도입과 활용: ChatEHR 사례 연구
초록
ChatEHR는 환자 전체 기록을 실시간으로 LLM에 제공하는 플랫폼으로, 자동화와 인터랙티브 UI를 결합해 1.5년간 7개의 자동화와 1 075명의 사용자가 23 000회 이상 세션을 수행하도록 지원했다. 요약 생성 시 평균 0.73회의 환각과 1.60회의 부정확성이 발견됐으며, 첫 해 약 6 백만 달러의 비용 절감 효과가 추정된다.
상세 분석
본 논문은 대형 언어 모델(LLM)을 임상 현장에 안전하게 통합하기 위한 전반적인 설계·운영·평가 프레임워크를 제시한다. 핵심은 세 가지 모듈(데이터 오케스트레이션, 컨텍스트 관리, LLM 라우팅)로 구성된 ChatEHR 플랫폼이다. 데이터 오케스트레이션은 환자 기록을 시간, 진료 유형, 위치 등 다양한 메타데이터 기반으로 추출하고, FHIR 형식과 비FHIR 형식을 모두 지원한다. 컨텍스트 관리 단계에서는 토큰 효율성을 위해 프롬프트와 환자 데이터를 결합하고, 필요 시 텍스트를 청크로 분할한다. LLM 라우팅은 토큰 수와 모델 특성을 고려해 최적의 모델을 선택하고, 모델별 컨텍스트 윈도우를 초과하면 병렬 처리로 분산한다. 이러한 구조는 18개의 서로 다른 LLM(OpenAI, Anthropic, Google 등)을 자유롭게 교체·조합할 수 있게 하여 벤더 종속성을 최소화한다.
자동화는 정적 프롬프트와 스크립트를 결합해 사전 정의된 업무(예: 사전 방문 요약, 전원 적격성 판단)를 일괄 처리한다. 파일럿에서는 이비인후과 사전 방문 요약과 간호사 교대 요약 두 사례가 성공적으로 구현됐으며, 각각 금형 데이터와 전문가 라벨링을 통한 골드 스탠다드가 구축되었다. 자동화 성능은 사전 구축된 벤치마크 데이터셋으로 정량적 평가하고, 모델 업데이트 시 재평가한다.
UI는 EHR 내에 채팅형 인터페이스를 삽입해 사용자가 자유롭게 질문하고 요약을 생성하도록 설계되었다. UI 사용 로그를 토대로 작업 유형을 분류하고, 요약 품질을 FactScore와 VeriFact 기반의 ‘지원되지 않은 주장’(환각·부정확) 분석으로 측정한다. 1개월 샘플에서 요약당 평균 0.73회의 환각과 1.60회의 부정확성이 발견돼, 실사용 시 검증 절차의 필요성을 강조한다.
가치 평가 프레임워크는 비용 절감, 시간 절감(소프트), 매출 성장(하드) 세 축을 정량화하고, 초기 연간 6 백만 달러 절감 효과를 추정한다. 또한, 지속적인 모니터링(시스템 무결성, 성능, 임팩트)과 피드백 루프를 통해 모델·프롬프트·워크플로우를 지속적으로 개선한다. 전체적으로 이 ‘내부 구축’ 전략은 학술 의료기관이 AI 주도 혁신을 주도하면서도 데이터 주권과 규제 준수를 유지할 수 있는 모델을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기