ChatGPT의 의료 정보 추출 능력 평가: 성능·설명가능성·불확실성
초록
본 논문은 ChatGPT를 6개 벤치마크 데이터셋에 걸친 4가지 의료 정보 추출(MedIE) 작업에 적용해 성능, 설명가능성, 신뢰도, 자신감, 불확실성을 종합적으로 평가한다. 실험 결과, 미세조정된 최신 모델에 비해 정확도는 낮지만, 추출 과정에 대한 고품질 설명을 제공한다. 다만 모델은 과도한 자신감을 보이며, 동일 입력에 대해 여러 번 호출했을 때 결과 변동성이 커 불확실성이 존재한다.
상세 분석
이 연구는 LLM인 ChatGPT가 의료 텍스트에서 엔터티, 관계, 이벤트, ICD‑10 코드를 추출하는 네 가지 세부 작업을 수행하도록 프롬프트와 몇 개의 데모 예시를 설계한 뒤, gpt‑3.5‑turbo API를 이용해 응답을 수집한다. 평가 항목은 (1) 성능(F1 점수), (2) 설명가능성(샘플·인스턴스 수준 설명), (3) 신뢰성(명령 준수와 이유의 충실도), (4) 자신감(예측 확률과 과신 현상), (5) 불확실성(동일 입력에 대한 5회 호출 결과 변동)이다. Baseline으로는 BERT 기반 미세조정, UIE, 각 데이터셋별 최신 SOTA 모델을 사용했으며, ChatGPT는 전반적으로 F1 점수에서 뒤처진다. 그러나 인간 전문가가 평가한 설명은 대부분 논리적이며 원문과 일치해 높은 설명가능성을 보여준다. 반면, ChatGPT는 자신감 점수를 과도하게 높게 제시해 실제 정답률과 불일치하는 과신 현상이 관찰되었다. 불확실성 측정에서는 토큰 샘플링(top‑p)으로 인한 출력 변동이 엔티티 경계나 관계 유형 선택에 직접적인 영향을 미쳐, 실무 적용 시 결과 일관성을 보장하기 어려운 점을 드러냈다. 이러한 결과는 LLM이 대규모 사전학습과 프롬프트 설계만으로는 전문 의료 IE 작업을 완전히 대체하기 어렵고, 신뢰도와 불확실성 관리가 필수임을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기