웹검색 기반 챗 어시스턴트의 신뢰성 평가: 출처 신뢰도와 근거 적합성 비교
초록
본 논문은 웹검색 기능을 갖춘 챗 어시스턴트가 인용하는 출처의 신뢰도와 답변이 해당 출처에 실제로 근거하고 있는지를 동시에 평가하는 새로운 방법론을 제시한다. 5개 주제의 100개 주장에 대해 GPT‑4o, GPT‑5, Perplexity, Qwen Chat를 시험한 결과, Perplexity가 가장 높은 신뢰도(≈86%)와 최소한의 비신뢰도(≈0.7%)를 보였으며, GPT‑4o는 민감 주제에서 비신뢰 출처 인용 비율이 상대적으로 높았다.
상세 분석
이 연구는 기존 사실성 평가와는 달리 “출처 신뢰도”와 “근거 적합성(groundedness)”을 동시에 측정하는 두 단계 메트릭을 도입했다. 첫 단계에서는 MBFC와 팩트체크 기관 리스트를 활용해 인용된 도메인을 8가지 신뢰 등급(very high → not rated)으로 분류하고, Credibility Rate(CR)와 Non‑Credibility Rate(NCR)를 계산했다. 두 번째 단계에서는 답변을 원자적 단위로 분해하고, 각 단위가 인용된 출처와 실제로 일치하는지를 검증함으로써 ‘신뢰도 기반 근거 적합성’이라는 새로운 오류 유형을 드러냈다.
실험 설계는 두 가지 사용자 역할(팩트체커 vs. 클레임 믿는 사람)과 5개 도메인(보건, 기후, 러시아‑우크라이나 전쟁, 미국 정치, 지역 이슈)을 포함해, 프레이밍 효과가 검색 결과와 인용 품질에 미치는 영향을 탐색했다. Selenium을 이용한 웹 인터페이스 자동화는 실제 사용자 경험을 반영했으며, 각 플랫폼별 인용 매핑 로직을 맞춤 구현해 데이터 일관성을 확보했다.
결과는 크게 세 가지 인사이트를 제공한다. 첫째, Perplexity는 가장 높은 CR(86.30 ± 1.67%)과 가장 낮은 NCR(0.69 ± 0.32%)을 기록, 검색 알고리즘이 신뢰도 높은 출처를 선별하는 데 효과적임을 시사한다. 둘째, GPT‑4o와 GPT‑5는 도메인 다양성을 확보했지만, 특히 러시아‑우크라이나 전쟁과 같은 민감 주제에서 비신뢰 출처 인용 비율이 상승했다(예: GPT‑4o의 NCR 4.55 %). 셋째, 사용자 역할에 따른 차이는 미미했으며, 클레임 믿는 사람 역할에서도 전반적인 CR과 NCR 차이가 크지 않아, 프레이밍이 출처 선택에 미치는 영향이 제한적임을 보여준다.
또한, 근거 적합성 평가에서 일부 모델은 비신뢰 출처에 기반한 주장을 충분히 뒷받침했음에도 불구하고, 신뢰도 높은 출처와 혼합해 제시함으로써 사용자를 혼란스럽게 할 가능성을 드러냈다. 이는 “신뢰도는 높지만 내용은 부정확한 출처”와 “신뢰도는 낮지만 정확한 내용” 사이의 미묘한 트레이드오프를 강조한다.
이 연구는 웹검색 기반 LLM의 위험성을 정량화하고, 정책 입안자와 개발자가 검색 엔진 연동 시 신뢰도 필터링을 강화해야 함을 제안한다. 향후 작업으로는 실시간 신뢰도 점수 업데이트, 다중 언어·다중 문화 출처 평가, 그리고 사용자 피드백 기반 동적 조정 메커니즘을 포함한 확장된 프레임워크가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기