전통한의학 LLM 평가를 위한 통합 벤치마크 LingLanMiDian
초록
LingLanMiDian은 전통한의학(TCM) 분야의 대형 언어 모델(LLM) 성능을 체계적으로 평가하기 위해 구축된 대규모 다중 과제 벤치마크이다. 지식 회수, 다중 홉 추론, 정보 추출, 임상 의사결정 등 13개의 서브태스크와 25 000여 개의 질문·케이스를 포함하며, 각 서브태스크별 400개 Hard 샘플을 별도 제공한다. 평가 메트릭은 정확도, 정밀도·재현율, 문자‑레벨 F1, 평균 절대오차(MAE), 코사인 유사도 등으로 통일되었고, 임상 라벨에 대한 동의어 허용 프로토콜을 적용한다. 14개의 최신 오픈·폐쇄형 LLM을 제로샷으로 테스트한 결과, 기본 지식 회수에서는 높은 정확도를 보였지만 다중 홉 추론·처방 조합·용량 비례 판단 등 고난이도 작업에서는 인간 전문가와 큰 격차가 드러났다. LingLan은 TCM 특유의 온톨로지와 경험 기반 추론을 정량화함으로써 향후 TCM 전용 LLM 개발 및 평가의 표준 기반을 제공한다.
상세 분석
본 논문은 전통한의학이라는 고유의 의료 체계가 갖는 복합적인 온톨로지, 은유적 표현, 그리고 경험 중심의 임상 추론을 정확히 측정할 수 있는 평가 프레임워크가 부재함을 지적한다. 이를 해결하기 위해 제안된 LingLanMiDian은 데이터 수집·정제·전문가 검증·Hard 샘플 추출까지 5단계 파이프라인을 구축하였다. 첫 단계에서는 TCM 라이선스 시험, 고전 문헌, 특허 의약품 삽입물, 전자 의료 기록(EMR), 그리고 마스터‑의사 케이스북 등 9개의 원천을 활용해 25 624개의 아이템을 확보했으며, 중복 제거와 개인정보 비식별화 과정을 거쳐 품질을 보장한다.
다음으로 13개의 서브태스크를 설계했는데, 이는 (1) TCM 라이선스 시험 14과목 기반 단일·다중 선택 문제, (2) 기본 TCM 지식 Q&A, (3) 중국 특허 의약품 지식 Q&A, (4) 고전·임상 텍스트에서의 정보 추출, (5) 진단·치료 의사결정(DTR) 및 결정 인식(DR) 등으로 구분된다. 특히 진단·치료 단계는 “단일 선택 결정 인식” 형태로 재구성해, 모델이 복수의 정답(동의어·동등 처방)을 허용받는 프로토콜을 적용함으로써 전통 한의학의 다중 정답 특성을 반영한다.
평가 메트릭은 모든 서브태스크에 일관성을 부여하기 위해 정확도 외에 정밀도·재현율·문자‑레벨 F1, 평균 절대오차(MAE), 코사인 유사도 등을 도입했다. 특히 Hard 서브셋은 각 데이터셋에서 난이도 높은 400개 항목을 별도 선정해, 모델의 최상위 성능이 아닌 실제 임상 적용 가능성을 검증한다.
실험에서는 GPT‑4, GPT‑3.5‑Turbo, Qwen‑2‑7B, Baichuan‑2‑13B 등 14개의 최신 LLM을 제로샷 설정으로 평가했다. 결과는 다음과 같다. (1) 라이선스 시험과 기본 지식 QA에서는 90 % 이상 정확도를 기록, 모델이 표준 교과서 지식을 충분히 습득했음을 보여준다. (2) 다중 홉 추론 및 정보 추출에서는 평균 정확도가 65 % 수준으로, 특히 복합 증후군 구분과 경로학 추론에서 큰 오류가 발생한다. (3) 진단·치료 의사결정에서는 정확도가 55 %에 머물며, 특히 처방 용량 비례와 동의어 처방 매핑에서 MAE가 0.42로 높은 편차를 보인다. Hard 서브셋에서는 전반적인 성능이 15 ~ 20 % 감소했으며, 인간 전문가(평균 92 % 정확도)와의 격차가 더욱 두드러졌다.
이러한 결과는 현재 LLM이 표면적인 사실 회수는 뛰어나지만, 전통 한의학에서 요구되는 복합적인 패턴 인식·경험 기반 추론 능력은 아직 미흡함을 시사한다. 특히 동의어·동등 처방을 허용하는 평가 프로토콜이 도입되었음에도, 모델은 정답 후보를 좁히는 과정에서 과도한 확신(confidence)과 편향을 보인다. 논문은 이를 개선하기 위해 (가) TCM 전용 지식 그래프와 추론 체인을 사전 학습에 통합, (나) 다중 정답을 명시적으로 학습시키는 멀티‑라벨 손실 함수, (다) 인간‑모델 협업을 통한 라벨링 피드백 루프 등을 제안한다.
전반적으로 LingLanMiDian은 데이터 규모·다양성·평가 일관성 측면에서 기존 TCMD, TCMBench, MTCMB 등을 크게 능가한다. 또한 “동의어‑허용 라벨링”과 “Hard 샘플”이라는 두 축을 도입해, 실제 임상 현장에서 요구되는 불확실성·다양성을 정량화한다는 점에서 의료 AI 평가 패러다임에 새로운 기준을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기