AI 코파일럿 AICare, 임상 판단을 돕다: 신장·산부인과 현장 실험
초록
본 논문은 전자건강기록(EHR)을 기반으로 동적 위험 예측과 시각화, LLM 기반 진단 서술을 제공하는 인터랙티브 AI 코파일럿 AICare를 설계·구현하고, 신장학과 산부인과의 16명 임상의와 수행한 실험을 통해 인지적 작업부하 감소와 신뢰 형성 메커니즘을 입증한다.
상세 분석
AICare는 기존 CDSS가 “최종 판정”만 제시하는 블랙박스와 달리, (1) 시간에 따른 위험 궤적을 시각화해 환자의 질병 진행을 연속적으로 보여주고, (2) SHAP 기반 특성 중요도 리스트를 인터랙티브하게 제공해 개별 변수의 추세를 탐색하도록 설계하였다. 또한, 대형 언어 모델(LLM)을 활용해 AI가 도출한 핵심 인사이트를 의료 전문가가 이해하기 쉬운 서술형 진단 권고로 변환한다. 시스템은 EHR에 직접 연동돼 실시간 데이터 탐색이 가능하도록 구현되었으며, 사용자 인터페이스는 단계적 공개(progressive disclosure) 원칙을 적용해 초기에는 요약 정보를, 필요 시 상세 데이터를 드릴다운하도록 구성하였다.
실험은 within‑subjects, counterbalanced 디자인으로 진행됐으며, 각 임상의는 AICare 사용 조건과 기존 수동 분석 조건을 번갈아 수행하였다. 객관적 지표로는 작업 완료 시간과 오류율, 주관적 지표로는 NASA‑TLX(인지 부하), SUS(사용성), 그리고 진단 자신감 점수를 수집했다. 정성적 데이터는 반구조화 인터뷰와 로그 분석을 통해 확보하였다.
주요 결과는 다음과 같다. AICare 사용 시 NASA‑TLX 점수가 통계적으로 유의하게 감소(p = 0.023)했으며, 진단 자신감이 상승(p = 0.018)했다. 정확도는 기존 조건과 차이가 없었고, 전체 작업 시간은 유의미한 차이를 보이지 않았지만, 고경력 임상의는 평균적으로 약간 더 오래 작업했으며 이는 더 많은 데이터 탐색과 ‘적대적 검증(adversarial verification)’ 행동 때문으로 해석된다. 로그 분석에서는 고경력 그룹이 특성 중요도 리스트와 위험 궤적을 반복적으로 조회하고, AI가 제시한 논리와 자신의 임상 판단을 교차 검증하는 패턴을 보였다. 반면, 초급 임상의는 시스템을 ‘인지적 비계(cognitive scaffold)’로 활용해 전체 흐름을 파악하고, 상세 탐색은 최소화하는 경향을 보였다.
신뢰는 “수동적 수용”이 아니라 “능동적 검증” 과정으로 형성된다는 질적 인사이트도 도출되었다. AI와 의견이 일치하지 않을 때, 임상의는 AI가 제공한 근거를 근거 기반으로 재평가하고, 필요 시 AI의 제안을 반박하거나 보완했다. 이러한 과정은 오히려 신뢰를 강화시켰으며, AI가 완전한 권위가 아니라 협업 파트너로 인식되는 데 기여했다.
디자인 시사점으로는 (1) 인터랙티브한 설명 인터페이스가 다양한 전문성 수준에 맞춰 ‘스크래폴딩’과 ‘적대적 검증’ 두 가지 전략을 지원해야 함, (2) LLM 기반 자연어 요약이 임상의의 인지 부하를 낮추면서도 근거 제시 역할을 해야 함, (3) 시스템이 EHR와 원활히 통합돼 실시간 데이터 흐름을 방해하지 않아야 함을 강조한다. 제한점으로는 샘플 수가 16명에 불과하고, 두 전문 분야에만 국한됐으며, 장기적인 임상 결과에 대한 추적이 부족하다는 점을 들 수 있다. 향후 연구에서는 다양한 진료과와 대규모 다기관 시험을 통해 일반화 가능성을 검증하고, AI가 제시하는 구체적 검사·치료 권고를 실제 워크플로에 자동 연동하는 방안을 모색해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기