임상 LLM의 가치 민감도 격차와 환자 선호 반영 연구
초록
본 연구는 98,759건의 Medicaid 진료 기록에서 추출한 임상 시나리오를 활용해 GPT‑5.2, Claude 4.5 Sonnet, Gemini 3 Pro, DeepSeek‑R1 네 가지 대형 언어 모델이 환자 가치 진술에 어떻게 반응하는지를 실험적으로 측정하였다. 모델별 기본 가치 지향(DVO)은 공격성 점수 2.03.5로 차이를 보였으며, 가치 민감도 지수(VSI)는 0.130.27, 방향 일치율(DCR)은 0.625~1.0이었다. 모든 모델이 환자 가치를 100% 인지했지만 실제 권고 변화는 미미했다. 단계 2에서 제안된 의사결정 매트릭스와 VIM 자체보고 완화 기법이 DCR을 0.125 상승시키는 등 제한적인 개선 효과를 보였다. 연구 결과는 임상 AI 거버넌스에서 가치 공개 라벨(VIM) 구축에 필요한 실증 데이터를 제공한다.
상세 분석
이 논문은 임상 현장에서 LLM이 환자 선호를 반영하는 정도를 정량화하려는 최초의 시도 중 하나로, 실험 설계와 측정 지표가 체계적이다. 먼저 98,759건의 Medicaid 기록을 자동 파이프라인으로 전처리해 선호‑민감도 높은 69건을 선정하고, 22개의 구조화된 시나리오를 도출했다. 이 중 두 개를 Phase 1, 하나를 Phase 2에 사용함으로써 모델·도메인·가치 조건을 완전 교차시킨 104개의 시험을 수행하였다.
측정 지표는 네 가지로 정의되었다. 기본 가치 지향(DVO)은 통제 조건에서의 평균 공격성·위험 점수이며, 모델마다 2.0(보수)에서 3.5(공격)까지 차이를 보였다. 가치 민감도 지수(VSI)는 통제 대비 공격성 점수 변화의 절대값을 4점(최대 변동)으로 정규화한 값으로, DeepSeek‑R1이 0.274로 가장 높았다. 방향 일치율(DCR)은 사전 정의된 8개의 가치 조건 중 모델이 기대 방향으로 변했는 비율이며, DeepSeek‑R1은 1.0, Gemini 3 Pro는 0.625로 차이를 보였다. 마지막으로 가치 인지율(VAR)은 비통제 시험에서 모델이 환자 가치를 “인정”했다고 보고한 비율로, 모든 모델이 100%를 기록했다.
통계적으로는 선형 혼합 효과 모델을 적용해 모델 종류가 공격성 점수에 유의한 영향을 미침을 확인했으며(z = 4.80, p < 0.001), 도메인 차이는 미미했다. 그러나 모델별로 특정 가치(예: 삶의 질·수명 우선)에서는 유의한 점수 변동이 관찰돼, 가치 조건 자체가 모델 반응을 크게 좌우함을 시사한다.
Phase 2에서는 GPT‑5.2에 여섯 가지 프롬프트‑레벨 완화 전략을 적용했으며, 의사결정 매트릭스와 VIM 자체보고가 DCR을 각각 0.125 상승시켰다. 그러나 Wilcoxon 검정에서 보정된 유의수준을 넘지 못해 통계적 유의성은 확보되지 못했다. 이는 샘플 수(13조건 × 6완화)와 효과 크기가 작아 실질적 개선이 제한적임을 보여준다.
전체적으로 모델은 환자 가치를 “언어적으로”는 인식하지만, 정량적 권고 변동은 매우 제한적이다. 이는 LLM이 내부 추론 과정과 출력 간에 일종의 정렬 불일치를 보이며, 가치‑민감도와 기본 가치 지향이 모델 선택에 따라 크게 달라진다는 중요한 거버넌스 시사점을 제공한다. 특히, 오픈‑웨이트 모델(DeepSeek‑R1)이 높은 VSI와 DCR을 보인 점은 체인‑오브‑쓰루(reasoning) 단계가 가치 통합에 유리함을 암시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기