대형 언어 모델을 활용한 임상 데이터 정밀 질의와 RAG 기반 지식 추출
초록
본 연구는 대형 언어 모델(LLM)이 전자건강기록(EHR)에서 구조화된 테이블을 파이썬·판다스 코드로 질의하고, 비구조화된 임상 노트를 검색·증강 생성(RAG) 파이프라인으로 정보를 추출하는 능력을 평가한다. MIMIC‑III의 일부 테이블(환자, 처방, 진단, ICD 코드)과 노트 이벤트를 대상으로, 로컬 Llama 3 8B와 API 기반 GPT‑4o‑mini, FLAN‑T5‑large 등을 사용해 자동 생성된 질문‑답변 쌍을 통해 정확도, 코드 생성 올바름, 의미적 일치 등을 측정하였다. 결과는 구조화된 질의에서 GPT‑4o‑mini가 높은 정확도를 보였으며, 비구조화된 텍스트 추출에서는 RAG가 인간 평가와 ROUGE 점수 사이의 차이를 드러내며 사실성 검증의 필요성을 강조한다.
상세 분석
이 논문은 두 가지 핵심 EHR 작업—구조화된 데이터 질의와 비구조화된 텍스트 정보 추출—에 LLM을 적용한 최초의 통합 실험으로 평가 프레임워크를 제시한다. 구조화된 데이터 측면에서는 자연어 질문을 판다스 코드로 변환하는 에이전트 기반 파이프라인을 설계했으며, 로컬에서 실행 가능한 Llama 3 8B Instruct와 Azure OpenAI의 GPT‑4o‑mini를 비교하였다. 모델에게 동일한 시스템 프롬프트를 제공해 코드 생성 일관성을 확보하고, 실행 환경에서 실제 CSV 파일을 조작하도록 함으로써 “코드 정확성”과 “출력 정확도”를 별도 측정했다. 결과는 Llama 3 8B가 코드 생성 성공률 60%에 불과하고, 정확히 일치하는 출력은 3%에 그쳤으며, GPT‑4o‑mini는 코드 정확도 73%, 정확히 일치하는 출력 50%를 기록했다. 이는 파라미터 규모와 사전 학습 데이터의 차이가 코드 생성 능력에 크게 영향을 미침을 시사한다.
비구조화된 텍스트 처리에서는 MiniLM‑L6‑v2 임베딩 모델과 FAISS 기반 벡터 스토어를 활용해 400 토큰 청크(50 토큰 오버랩)로 문서를 인덱싱하고, FLAN‑T5‑large와 GPT‑4o‑mini를 RAG 파이프라인에 연결했다. 자동 생성된 질문은 해당 청크에서 직접 추출했으며, 인간 평가자는 답변의 임상적 사실성을 판단했다. ROUGE‑1/2/F1 점수는 모델마다 0.27~0.67 사이로 차이를 보였지만, 인간 평가에서 내용 정확도는 FLAN‑T5‑large 76%, GPT‑4o‑mini 78%로 비슷했다. 이는 표면적 텍스트 일치와 실제 사실성 사이에 괴리가 있음을 보여준다.
또한, 데이터 전처리 단계에서 DOB를 Faker로 합성하고, 101명의 환자를 무작위 선택해 274 022개의 레코드(23개 특성)로 확장함으로써 토큰 제한을 극복하고 실험 재현성을 확보했다. 구조화된 질의는 “중간 연령은?”과 같은 단순 집계부터 “여성 환자의 중간 연령은?”과 같은 조건부 집계까지 30개의 복합 프롬프트를 사용했으며, 복잡도가 증가할수록 모델 성능이 급격히 저하되는 경향을 확인했다.
전반적으로, LLM이 EHR 데이터와 상호작용할 때는 (1) 모델 선택에 따른 코드 생성·정확도 차이, (2) RAG를 통한 외부 문서 기반 사실성 강화, (3) 인간 검증을 병행한 다중 메트릭 평가가 필수적임을 강조한다. 특히, 임상 현장 적용을 위해서는 모델이 생성한 코드를 실행 전 검증하고, RAG 결과를 사실성 검증 파이프라인에 통합해야 한다는 실용적 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기