LLM 기반 검색 엔진과 전통 검색 엔진의 출처 다양성 및 편향 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 55,936개의 질의에 대해 6개 LLM‑기반 검색 엔진과 Google·Bing 2개 전통 검색 엔진이 제공한 결과를 비교 분석한다. LLM‑검색 엔진은 도메인 다양성이 높아 37 %가 전통 엔진에 없지만, 신뢰성·정치적 중립·안전성에서는 전통 엔진에 뒤처진다. 출처 선택에 영향을 미치는 특징으로는 구조화된 HTML, 가독성 높은 텍스트, 낮은 인기·높은 신뢰도 외부 링크 등이 확인되었다.

상세 분석

본 연구는 LLM‑기반 검색 엔진(LLM‑SE)과 전통 검색 엔진(TSE)의 출처 제공 방식을 정량·정성적으로 평가한다. 데이터 수집 단계에서는 Google Trends와 X(구 트위터)에서 추출한 키워드 13,112개와 자연어 형태의 질문 40,543개, 논란이 되는 질문 2,281개를 합쳐 55,936개의 질의를 구성하였다. 각 질의에 대해 Google·Bing과 ChatGPT, Gemini, Perplexity, Grok, AI Mode, Copilot(빙) 등 8개 엔진을 동일 조건(시크릿 모드, 메모리 비활성화)으로 호출하고, LLM‑SE가 반환한 인라인 인용 URL을 파싱하였다.

출처 다양성 측면에서 LLM‑SE는 평균 4.3개의 고유 URL와 3.4개의 도메인을 제공했으며, 이는 TSE의 평균 10.3 URL·7.3 도메인에 비해 현저히 적다. 그러나 도메인 분포의 집중도(Gini 지수)는 LLM‑SE가 낮아(예: Gemini 0.77, Grok 0.76) 특정 도메인에 의존하는 정도가 TSE(구글 0.87, 빙 0.89)보다 낮았다. 특히 37 %의 도메인이 LLM‑SE 전용으로, 기존 검색 결과에 나타나지 않는다. 이는 LLM‑SE가 최신·전문 지식베이스를 활용하거나, 검색‑증강 생성(RAG) 과정에서 다양한 소스를 탐색하기 때문으로 해석된다.

하지만 품질 평가에서는 LLM‑SE가 TSE에 뒤처졌다. MBFC(미디어 편향·사실 검증)와 VirusTotal(보안) 데이터셋을 이용해 신뢰성·정치적 중립·악성 여부를 측정했을 때, LLM‑SE가 인용한 도메인 중 신뢰도 높은 사이트 비중이 낮고, 좌파·우파 편향이 더 뚜렷하게 나타났다(예: Gemini은 좌파 편향 도메인 비중이 높고, Grok은 전체적인 정치적 중립성이 가장 낮았다). 또한 사이버 안전성 지표에서도 LLM‑SE는 악성 도메인 비율이 TSE와 비슷하거나 오히려 높았다.

출처 선택에 영향을 미치는 특징을 파악하기 위해 로지스틱 회귀 모델을 구축하였다. 주요 변수는 (1) HTML 구조 복잡도(헤더·섹션 수), (2) 텍스트 가독성(문장 길이·단어 난이도), (3) 도메인 인기(Tranco 순위), (4) 외부 신뢰도 링크(다른 고신뢰도 도메인으로의 아웃링크 수)였다. 결과는 LLM‑SE가 구조가 명확하고 가독성이 높은 페이지, 인기보다는 신뢰도가 높은 저인기도 도메인, 그리고 다수의 신뢰도 높은 외부 링크를 가진 사이트를 선호한다는 것을 보여준다. 이는 LLM‑SE가 내부 언어 모델의 판단 기준으로 “읽기 쉬운” 텍스트와 “신뢰할 수 있는” 인용 구조를 우선시함을 시사한다.

전반적으로 LLM‑SE는 출처 다양성 측면에서 새로운 정보 흐름을 제공하지만, 신뢰성·중립성·안전성에서는 아직 전통 검색 엔진에 비해 개선 여지가 크다. 연구 결과는 사용자에게는 인용 출처를 검증하는 습관을 권고하고, 웹사이트 운영자는 구조화된 HTML과 명료한 텍스트 제공을 통해 LLM‑SE에 노출될 가능성을 높일 수 있음을 시사한다. 또한 검색 엔진 개발자는 인용 투명성을 강화하고, 편향·위험 평가 모듈을 통합해 신뢰성을 향상시킬 필요가 있다.

LLM 기반 검색 엔진과 전통 검색 엔진의 출처 다양성 및 편향 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기