LLM을 활용한 전자의무기록 연구 동향 종합 고찰

초록

본 논문은 OpenAlex에서 수집한 329편의 논문을 대상으로 LLM이 전자의무기록(EHR) 분석에 어떻게 활용되고 있는지를 조망한다. 서지 분석을 통해 연구 추이와 협업 네트워크를 파악하고, 논문을 명명된 개체 인식, 정보 추출, 텍스트 유사도, 요약, 분류, 대화 시스템, 진단·예측 등 일곱 가지 주제로 분류한다. 각 주제별로 LLM의 문맥 이해, 의미 관계 포착, 인간 수준 텍스트 생성 능력을 논의하고, 데이터 자원, 프롬프트 설계, 파인튜닝, 성능 평가, 윤리적 이슈 등 실무적 함의를 제시한다.

상세 요약

이 연구는 LLM 기반 EHR 분석 분야의 현황을 체계적으로 정리한 최초의 스코핑 리뷰라 할 수 있다. 먼저 OpenAlex 데이터베이스를 활용해 2018년 이후 발표된 329편의 논문을 자동 수집하고, 메타데이터(연도, 저자, 기관, 키워드)를 기반으로 Bibliometrix와 VOSviewer를 이용해 연도별 출판량, 주요 저널, 국가·기관 협업 네트워크를 시각화하였다. 결과는 2021년 이후 급격히 증가한 출판량과 미국·중국·영국이 핵심 협업 허브임을 보여준다.

다음 단계에서는 각 논문을 인간 전문가가 직접 검토해 일곱 개의 연구 주제로 분류하였다. 명명된 개체 인식(NER)에서는 BioBERT, ClinicalBERT 등 사전학습 모델에 LLM 프롬프트를 결합해 약어·진단코드 식별 정확도를 5~12% 향상시킨 사례가 다수 보고되었다. 정보 추출(IE)에서는 구조화되지 않은 임상 노트를 표준화된 OMOP CDM 형태로 변환하는 파이프라인에 GPT‑4 기반 제로샷 프롬프트를 적용해 라벨링 비용을 크게 절감했다. 텍스트 유사도와 요약에서는 환자 기록 간 유사도 매트릭스를 구축하거나 입원 요약 보고서를 자동 생성하는 데 LLM의 문맥 유지 능력이 핵심 역할을 한다는 점이 강조된다.

텍스트 분류와 대화 시스템 분야에서는 LLM을 파인튜닝하거나 인-컨텍스트 학습을 통해 질병 코드 자동 분류, 약물 부작용 감지, 환자-의료진 인터페이스 구축에 활용하였다. 특히 진단·예측 영역에서는 LLM이 다중 모달(텍스트+이미지) 입력을 처리해 위험군 예측 모델의 AUC를 0.03~0.07 상승시킨 사례가 눈에 띈다.

연구자는 이러한 기술적 진보와 동시에 데이터 품질, 프롬프트 설계 복잡성, 파인튜닝 비용, 성능 평가 표준 부재, 개인정보 보호와 편향 문제 등 윤리·법적 과제도 상세히 논의한다. 특히 LLM이 학습 과정에서 의료 데이터에 내재된 편향을 증폭시킬 위험과, 환자 식별 정보가 비의도적으로 노출될 가능성을 경고한다.

전체적으로 이 리뷰는 LLM이 EHR 텍스트 처리 전반에 걸쳐 ‘문맥 이해 → 의미 추출 → 텍스트 생성’의 연쇄적 강점을 제공함을 확인하고, 향후 연구는 고품질 라벨링 데이터 확보, 프롬프트 자동 최적화, 지속 가능한 파인튜닝 전략, 표준화된 성능 벤치마크 구축, 그리고 투명한 윤리 가이드라인 제정에 초점을 맞춰야 함을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)