AI 임상의 평가를 위한 GAPS 자동 벤치마크
초록
GAPS 프레임워크는 임상 추론의 깊이(Grounding), 답변 완전성(Adequacy), 입력 변동성(Perturbation), 안전성(Safety) 네 축을 정의하고, 최신 대형 언어 모델(LLM) 기반 자동 파이프라인을 통해 근거 기반 가이드라인을 근거로 한 질문·루브릭을 자동 생성한다. 자동 생성된 질문은 임상의와 90% 일치(κ=0.77)를 보였으며, 평가 결과 현재 모델들은 추론 깊이가 깊어질수록 성능이 급감하고, 답변의 완전성이 부족하며, 교란에 취약하고, 특히 복잡한 상황에서 치명적 오류(S4)를 발생시킬 위험이 있음을 확인했다.
상세 분석
본 논문은 기존 AI 임상의 평가가 객관식 시험이나 수작업 루브릭에 의존해 임상 현장의 복합성·불확실성을 충분히 반영하지 못한다는 문제점을 짚고, 이를 해결하기 위한 GAPS라는 다차원 평가 프레임워크를 제안한다. G축은 인지적 깊이를 G1(사실 회상)→G4(추론)로 계층화해 모델이 단순 지식 검색을 넘어 실제 환자 상황에 적용·추론할 수 있는지를 측정한다. A축은 Must‑have(A1), Should‑have(A2), Nice‑to‑have(A3) 세 단계로 답변의 완전성을 정량화한다. P축은 원본 질문(P0)에서 언어적 잡음(P1), 불필요한 문맥(P2), 의도적으로 잘못된 전제(P3)를 순차적으로 추가해 모델의 견고성을 테스트한다. S축은 위험 수준을 S1(무해)→S4(치명)로 구분해 안전성을 명시적으로 평가한다.
핵심 기술은 완전 자동화된 파이프라인이다. 먼저 NCCN NSCLC 가이드라인을 근거로 ‘증거 이웃집단(evidence neighbourhood)’을 구축하고, 이를 기반으로 지식 그래프(KG)와 계층적 트리를 생성한다. KG와 트리는 질문 생성 엔진에 입력돼 G1‑G4 수준의 질문을 자동으로 만든다. 여기서 P축 변형은 사전 정의된 프롬프트 변환 규칙으로 구현된다. 루브릭 생성은 DeepResearch 에이전트가 ReAct 루프를 따라 PICO 질의와 GRADE 원칙에 따라 근거를 검색·요약하고, 긍정·부정 루브릭 요소를 자동 추출한다. 이렇게 생성된 루브릭은 각 질문에 평균 12개의 Adequacy 요소와 7개의 Safety 요소를 포함한다(표 1, 2).
평가 단계에서는 다중 LLM 판정자(ensemble)와 규칙 기반 점수를 결합해 정량적 점수를 산출하고, 일부 샘플에 대해 임상의 검증을 수행해 90% 일치·κ=0.77이라는 높은 신뢰도를 확보했다. 실험 결과, GPT‑5는 G1‑G2에서 0.70 ~ 0.72의 높은 점수를 기록했지만 G3‑G4에서는 0.45 ~ 0.68로 급격히 떨어졌다. 다른 모델들은 전반적으로 G3 이하에서 0.35 ~ 0.60 수준에 머물렀다. Adequacy 측면에서는 A1(핵심)에서는 0.80 이상이지만 A2·A3(보조·부가)에서는 일관된 저조를 보였다. Safety 축에서는 모델마다 차이가 있었으며, Claude Opus 4는 G4에서 S4(치명) 오류가 25%까지 상승한 반면 GPT‑5와 Gemini 2.5 Pro는 거의 0%에 머물렀다. Perturbation 실험에서는 P1(언어 잡음)과 P2(중복 문맥)에서는 비교적 안정적이었지만, P3(잘못된 전제)에서는 모든 모델이 점수와 정확도가 크게 하락했다. 이는 모델이 입력의 진위 여부를 비판적으로 검증하기보다 표면적 힌트에 과도하게 의존한다는 점을 시사한다.
이러한 분석을 통해 저자들은 현재 LLM 기반 AI 임상의가 ‘지식 저장소’ 수준은 뛰어나지만, ‘임상 판단·추론’ 단계에서는 아직 인간 수준의 신뢰성과 안전성을 확보하지 못했음을 강조한다. GAPS 프레임워크와 자동 파이프라인은 이러한 격차를 정량화하고, 향후 모델 설계·훈련·평가에 대한 구체적 로드맵을 제공한다. 특히, G4 수준의 추론 능력 강화, Adequacy 요소 전반의 포괄적 포함, 교란에 대한 내성 강화, 그리고 S4 수준의 치명적 오류 방지를 위한 안전 메커니즘이 향후 연구 과제로 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기