대형 언어 모델의 의료 상담 윤리 위험: 생식 윤리 규정 기반 평가
초록
본 연구는 8개 주요 LLM을 중국의 생식 윤리 규정 168조항에서 도출한 986개 질문(주관식 906개, 객관식 80개)에 적용해 안전성·품질을 6차원 루브릭으로 평가하였다. 위험률은 평균 16%였으며, 특히 규정 인용·공감 능력이 전반적으로 부족함을 확인했다.
상세 분석
이 논문은 의료 상담 상황에서 LLM의 윤리적 적합성을 지역 규범과 연결해 최초로 정량화한 시도라 할 수 있다. 먼저 질문 생성 단계에서 ‘조항 기반(clause‑based)’ 접근을 채택해, 168개의 법·규정 조항을 직접 질문 시나리오로 전환하였다. 이는 기존 USMLE·CPLE와 같은 일반적 윤리·의학 시험과 달리, 실제 중국 내 생식 의료 현장에서 적용되는 구체적 규정에 초점을 맞춘 점이 혁신적이다. 질문 수는 986개로 충분히 규모가 크며, 주관식 906개와 객관식 80개를 균형 있게 배치해 지식 회수와 실제 상담 능력을 동시에 검증한다.
평가 루브릭은 안전성(규범 준수, 안내 안전)과 품질(문제 식별, 규정 인용, 실천적 제안, 공감) 두 축을 각각 두 차원씩, 총 6차원으로 설계했다. 위험 평가 단계에서 -1 점을 부여해 고위험 응답을 즉시 배제하는 방식은 실용적인 위험 관리 흐름을 제공한다. 그러나 ‘규범 인용’과 ‘공감’ 차원을 이진 점수(0/1)로만 평가함으로써, 인용의 정확성·완전성이나 공감의 깊이를 정량화하기엔 한계가 있다. 또한 자동 스코어러가 88.5% 정확도를 보였지만, 인간 평가자와의 일치도 검증이 부족해 실제 품질 평가에 대한 신뢰도가 다소 낮다.
모델별 성과를 보면, 파라미터 규모와 객관식 정확도 사이에 강한 양의 상관관계가 존재한다. 대형 모델(예: deepseek‑r1‑671b, qwen2.5‑72b, claude3.7‑sonnet‑thinking)은 70%에 육박하는 정확도를 기록했으며, 소형 모델은 22% 수준으로 거의 무작위에 가까웠다. 그러나 주관식 위험률에서는 대형 모델이라도 3~5% 수준의 위험을 완전히 제거하지 못했다. 특히 deepseek‑r1‑7b는 29.91%라는 높은 위험률을 보이며, 위험 관리가 미흡함을 드러냈다.
전체적으로 모든 모델이 ‘규정 인용’과 ‘공감’ 차원에서 저조한 점수를 받았는데, 이는 현재 LLM이 법적·윤리적 근거를 제시하거나 인간적인 감성을 전달하는 데 구조적 한계가 있음을 시사한다. 또한 ‘논리적 자기모순’이나 ‘도덕 직관 위반’ 사례가 보고된 점은, 모델이 단순히 텍스트를 재생산하는 수준을 넘어선 복합적 윤리 추론 능력이 부족함을 보여준다.
연구의 제한점으로는(1) 질문이 모두 중국 법규에 기반해 있어 국제적 일반화가 어려움, (2) 인간 평가자 수가 제한적이며 주관적 판단에 의존, (3) 자동 스코어링 모델이 일부 차원에서 낮은 정확도를 보인 점 등을 들 수 있다. 향후 연구는 다문화·다법적 환경을 포함한 질문 세트 확대, 인간·AI 혼합 평가 체계 구축, 그리고 규정 인용·공감 능력을 강화하기 위한 프롬프트 엔지니어링 및 사후 검증 메커니즘 개발이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기