AI 챗봇이 인간 의료인보다 더 공감적? 텍스트 기반 진료에서의 최신 메타분석
초록
본 체계적 리뷰와 메타분석은 2023‑2024년 사이에 발표된 15개의 연구(13개 메타분석 가능)를 조사하여, 대형 언어 모델 기반 AI 챗봇이 텍스트‑전용 환자 상담에서 인간 의료인보다 평균 0.87표준화 평균 차이(SMD)만큼 높은 공감 점수를 보였음을 밝혀냈다. 그러나 비대면·텍스트 한계, 비검증된 측정도구, 평가자 편향 등 위험도가 중·심각한 연구가 다수 존재한다.
상세 분석
이 리뷰는 PRISMA 2020 지침에 따라 진행됐으며, PubMed·Cochrane·Embase·PsycINFO·Scopus·IEEE Xplore 등 7개 데이터베이스와 임상시험 레지스트리를 포괄적으로 검색했다. 포함 기준은 실제 환자·사용자가 생성한 텍스트(이메일, 포털 메시지, 온라인 포럼 등)와 LLM(GPT‑3.5/4, Claude, Gemini 등) 기반 챗봇을 비교한 실증 연구였다. 제외된 연구는 규칙 기반 챗봇, 가상 시나리오, 비검증 설문 등이다.
15개 연구 중 13개가 메타분석에 사용 가능했으며, 모두 텍스트 기반 응답을 비교했다. 효과 크기(SMD) 0.87은 중대 효과에 해당하고, 10점 척도 기준 약 2점 상승을 의미한다. 하위 분석에서 GPT‑4가 GPT‑3.5보다 약간 높은 효과를 보였지만, 이질성(I²)도 상당히 높아(>70%) 결과 해석에 주의가 필요하다.
위험도 평가는 ROBINS‑I 도구로 수행했으며, 9개 연구는 ‘중간’, 6개는 ‘심각’ 위험도로 분류됐다. 주요 편향 요인으로는 (1) 비검증된 단일 항목 Likert 척도 사용(14/15 연구), (2) 평가자 다양성(환자 대리인, 의료인, 심리학 전공 학생 등)으로 인한 주관성, (3) 데이터 출처가 Reddit 등 비임상 온라인 커뮤니티에 국한돼 일반 환자군과 차이가 있을 가능성, (4) 일부 연구에서 AI 응답을 사전 검토·차단한 감독 설계가 AI 성능을 과대평가하거나 과소평가할 위험이 있다.
또한, 모든 연구가 비언어적 요소(목소리, 표정, 몸짓)를 배제한 텍스트만을 평가했기 때문에, 실제 대면 진료에서의 공감 전달 능력을 직접적으로 추정하기 어렵다. 두 건의 피부과 연구가 인간 의료인의 공감 점수가 더 높았던 점은 전문 분야별 환자 기대치 차이를 시사한다.
향후 연구는 (①) 실제 환자를 대상으로 한 무작위 대조시험, (②) 음성·영상 등 멀티모달 인터페이스를 포함한 AI의 공감 전달 효과, (③) CARE·CEEQ 등 검증된 공감 측정 도구 활용, (④) 다양한 문화·언어권에서의 일반화 가능성 검증이 필요하다.
요약하면, 현재 텍스트 기반 상황에서는 LLM 기반 챗봇이 인간보다 높은 공감 인식을 얻고 있으나, 측정 방법론·연구 설계상의 한계가 크므로, 임상 현장에서의 실제 효과를 확정짓기엔 추가 증거가 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기