투명하고 신뢰할 수 있는 임상 진단을 위한 두 단계 LLM 프레임워크

본 논문은 대형 언어 모델(LLM)의 임상 진단 적용에서 발생하는 투명성·신뢰성 문제를 해결하고자 두 단계 구조인 증거‑기반 진단 추론(EGDR)과 진단 신뢰도 점수(DCS)를 제안한다. EGDR은 DSM‑5 기준에 기반한 증거 추출과 논리적 추론을 교차 수행해 구조화된 진단 가설을 생성하고, DCS는 지식 귀속 점수(KAS)와 논리 일관성 점수(LCS)라

투명하고 신뢰할 수 있는 임상 진단을 위한 두 단계 LLM 프레임워크

초록

본 논문은 대형 언어 모델(LLM)의 임상 진단 적용에서 발생하는 투명성·신뢰성 문제를 해결하고자 두 단계 구조인 증거‑기반 진단 추론(EGDR)과 진단 신뢰도 점수(DCS)를 제안한다. EGDR은 DSM‑5 기준에 기반한 증거 추출과 논리적 추론을 교차 수행해 구조화된 진단 가설을 생성하고, DCS는 지식 귀속 점수(KAS)와 논리 일관성 점수(LCS)라는 두 해석 가능한 지표로 결과의 사실성·논리성을 평가한다. D4 데이터셋(의사 라벨링)에서 OpenBioLLM, MedLlama 등 5개 모델에 적용한 결과, EGDR는 직접 프롬프트 대비 정확도가 최대 45 % 상승하고, DCS는 36 % 이상 향상되는 등 기존 CoT 방식보다 월등히 높은 성능과 해석성을 보였다.

상세 요약

이 연구는 임상 진단 지원 AI가 직면한 ‘블랙박스’ 문제를 두 가지 축으로 접근한다. 첫 번째 축인 Evidence‑Guided Diagnostic Reasoning(EGDR)은 기존의 단순 프롬프트나 Chain‑of‑Thought(CoT) 방식이 LLM에게 자유롭게 추론하도록 하는 데 반해, 진단 과정에 반드시 필요한 ‘증거’를 먼저 추출하도록 강제한다. 구체적으로 모델은 환자 증상, 병력, 검사 결과 등 입력 텍스트에서 DSM‑5(정신질환 진단 매뉴얼) 기준에 부합하는 핵심 증거 조각을 식별하고, 이를 기반으로 ‘가능성 높은 진단 가설 → 보조 가설 → 최종 진단’ 순서의 구조화된 추론 트리를 만든다. 이 과정에서 증거와 가설 사이의 연결 고리를 명시적으로 표기함으로써, 인간 전문가가 결과를 검증할 때 어떤 근거가 사용됐는지 즉시 파악할 수 있다.

두 번째 축인 Diagnosis Confidence Scoring(DCS)은 생성된 진단 결과의 신뢰도를 정량화한다. DCS는 Knowledge Attribution Score(KAS)와 Logic Consistency Score(LCS) 두 하위 지표로 구성된다. KAS는 모델이 참조한 외부 지식(예: DSM‑5 조항, 최신 임상 가이드라인)과의 일치도를 평가한다. 이를 위해 사전 구축된 지식 베이스와의 문자열 매칭·시맨틱 유사도 측정을 활용한다. LCS는 추론 단계에서 논리적 일관성을 검증한다. 가설 간 전후 관계, 전제‑결론 구조, 그리고 증거‑가설 매핑이 논리적으로 모순되지 않는지를 그래프 기반 일관성 검사 알고리즘으로 점검한다. 두 점수를 가중 평균해 최종 DCS를 산출함으로써, 사용자는 단순 정확도 외에 ‘왜 이 진단이 신뢰할 만한가’를 수치적으로 확인할 수 있다.

실험은 D4 데이터셋(가상의 임상 케이스에 대한 라벨링)에서 다섯 종류의 LLM(OpenBioLLM, MedLlama, BioGPT, ClinicalBERT, 그리고 GPT‑4 기반 모델)에게 적용되었다. EGDR를 적용한 경우, OpenBioLLM의 정확도는 0.31에서 0.76으로 45 %p 상승했으며, DCS는 0.50에서 0.67로 34 %p 상승했다. MedLlama에서도 CoT 대비 DCS가 0.58에서 0.77으로 19 %p 상승했다. 전반적으로 EGDR는 기존 직접 프롬프트와 CoT 대비 평균 정확도 12 %p, DCS 15 %p 향상을 기록했다.

주목할 점은 EGDR가 ‘증거‑가설’ 구조를 강제함으로써 모델이 비전문가 수준의 추론 오류(예: 증거와 무관한 가설 도출)를 크게 억제한다는 것이다. 또한 KAS와 LCS는 각각 독립적인 평가 차원을 제공해, 임상의가 ‘지식 기반 부합성’과 ‘논리 일관성’ 중 어느 부분이 약한지를 진단할 수 있게 한다. 한계점으로는 DSM‑5에 국한된 도메인 의존성, 증거 추출 단계에서의 어노테이션 품질에 대한 민감도, 그리고 현재는 정량적 점수만 제공하므로 실제 임상 의사결정 흐름에 통합하기 위한 인터페이스 설계가 부족하다는 점을 들 수 있다. 향후 연구에서는 다중 진단 매뉴얼(예: ICD‑10) 적용, 증거 추출의 자동화 정확도 향상, 그리고 실시간 임상 워크플로와의 연동을 목표로 할 필요가 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...