의료 LLM 편향 탐지를 위한 지식그래프·다중홉 적대적 질문 프레임워크
초록
**
본 논문은 의료용 대형언어모델(LLM)의 미묘하고 교차적인 편향을 체계적으로 드러내기 위해, 지식그래프(KG)와 보조(공격자) LLM을 결합한 프레임워크를 제안한다. KG에서 추출한 임상 속성을 기반으로 공격자 LLM이 속성·교차 속성 변형 질문을 생성하고, 목표 LLM은 3단계 다중홉 추론을 통해 답변한다. 실험 결과, 기존 평가 방식보다 복합 편향을 더 많이, 더 정확히 탐지함을 입증한다.
**
상세 분석
**
이 연구는 의료 LLM의 편향 평가에 두 가지 핵심 혁신을 도입한다. 첫째, 임상 텍스트에서 자동으로 KG를 구축하고, KG의 삼중항(헤드‑관계‑테일) 정보를 활용해 속성(연령, 성별, 지역, 동반질환 등)을 구조화한다. 여기서 ‘공격자 LLM’은 사전 정의된 속성 변형 규칙에 따라 원문 문장을 교란된 버전으로 바꾸어 다수의 ‘perturbed question’를 생성한다. 이 과정은 단일 속성 교란(속성 편향)과 여러 속성을 동시에 교란(교차 편향) 두 가지 시나리오를 모두 포괄한다.
둘째, 목표 LLM에 대한 평가 단계는 3단계 다중홉 추론으로 설계되었다. 1단계에서는 질문에서 추출한 KG 삼중항을 그대로 제시해 기본 정보를 정리한다. 2단계에서는 LLM 자체의 내재 지식을 활용해 초기 삼중항을 확장, 예를 들어 연령‑질병 연관성, 지역‑사회적 요인 등 숨겨진 관계를 자동으로 연결한다. 3단계에서는 확장된 다중홉 정보를 바탕으로 최종 임상 판단을 도출하도록 체인‑오브‑생각(CoT) 프롬프트를 제공한다. 이 구조는 단순 ‘프롬프트‑답변’ 방식이 놓칠 수 있는 미묘한 편향 신호를 끌어내는 데 효과적이다.
실험은 세 개의 공개 의료 질문·답변 데이터셋(예: MedQA, PubMedQA, MIMIC‑derived)과 여섯 종류의 LLM(예: GPT‑4, Claude, LLaMA‑2, MedPaLM 등)을 대상으로 수행되었다. 평가 편향 유형은 성별, 연령, 인종·민족, 사회경제적 지위, 그리고 복합 교차 속성(예: 고령·소수민족·저소득) 다섯 가지로 정의하였다. 제안 프레임워크는 기존 ‘LLM‑as‑judge’ 기반 평가지표와 비교해 편향 감지율이 평균 18%p 상승했으며, 특히 교차 편향 상황에서 25%p 이상의 개선을 보였다. 또한, 질문 생성 단계에서 공격자 LLM이 생성한 변형 질문은 인간 전문가가 설계한 베이스라인보다 다양성과 난이도 면에서 우수했다는 정성적 평가 결과도 제시한다.
한계점으로는 KG 구축 시 도메인‑특화 엔티티 추출 정확도에 의존한다는 점, 공격자 LLM의 프롬프트 설계가 사전 정의된 속성 집합에 제한된다는 점, 그리고 다중홉 추론 과정이 계산 비용을 증가시킨다는 점을 언급한다. 향후 연구에서는 자동화된 엔티티 정규화, 속성 집합의 동적 확장, 그리고 효율적인 다중홉 추론 가속화 방안을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기