CP Env 병원 환경에서 임상 경로 평가를 위한 대형 언어 모델
읽는 시간: 2 분
...
📝 원문 정보
- Title: CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment
- ArXiv ID: 2512.10206
- 발행일: 2025-12-11
- 저자: Yakun Zhu, Zhongzhen Huang, Qianhan Feng, Linjie Mu, Yannian Gu, Shaoting Zhang, Qi Dou, Xiaofan Zhang
📝 초록 (Abstract)
의료 서비스는 단일 진료·환자 상호작용을 넘어 복잡한 임상 경로를 따라 진행되며, 단계 간 의사결정과 전이가 핵심이다. 기존 벤치마크는 정적인 시험이나 고립된 대화에 국한돼 동적인 임상 상황을 충분히 평가하지 못한다. 본 연구는 LLM을 종단적인 임상 경로 전반에 걸쳐 평가하기 위해 제어 가능한 에이전트 기반 병원 환경인 CP‑Env를 제안한다. CP‑Env는 환자와 의사 에이전트를 시뮬레이션하여 트리아지, 전문의 상담, 진단 검사, 다학제 팀 회의 등 다양한 시나리오를 구성하고, 실제 병원의 적응형 흐름을 모방해 분기와 장기 과제 수행을 가능하게 한다. 우리는 임상 효능, 프로세스 역량, 전문 윤리의 세 가지 차원으로 평가 프레임워크를 설계하였다. 실험 결과 대부분의 모델이 경로 복잡성에 어려움을 겪으며, 환각 현상과 핵심 진단 정보 손실이 발생함을 확인했다. 흥미롭게도 과도한 추론 단계가 오히려 성능을 저하시킬 수 있었으며, 최상위 모델은 도구 의존도가 낮고 내부 지식으로 문제를 해결하는 경향을 보였다. CP‑Env는 포괄적인 종단 임상 평가를 통해 의료 AI 에이전트 개발을 촉진한다. 벤치마크와 평가 도구를 공개하여 향후 연구와 개발에 기여한다.💡 논문 핵심 해설 (Deep Analysis)

평가 프레임워크는 세 축으로 구성된다. 첫 번째 ‘임상 효능(Clinical Efficacy)’은 진단 정확도, 치료 적합성, 환자 안전 등…