대규모 언어 모델 시대의 인용 정확성 위기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM이 생성하는 ‘유령 인용’(ghost citation)의 위험성을 정량화하고, 13개 최신 LLM을 40개 컴퓨터 과학 분야에 걸쳐 벤치마크한 결과 14.23%~94.93%의 인용 허위율을 보였으며, 2020‑2025년 AI·보안 분야 56,381편 논문 중 1.07%에 허위 인용이 존재함을 밝혀냈다. 설문 조사에서는 연구자·리뷰어의 70% 이상이 인용 검증을 소홀히 하는 ‘검증 격차’가 존재함을 확인하고, 자동화된 검증 도구와 정책적 개입을 제안한다.

상세 분석

본 연구는 세 가지 핵심 질문(Q1‑Q3)에 답하기 위해 ‘CiteVerifier’라는 오픈소스 프레임워크를 설계하였다. CiteVerifier는 (1) GROBID 기반의 하이브리드 파싱, (2) 로컬 DB, DBLP·Google Scholar 등 학술 데이터베이스, (3) 웹 검색을 순차적으로 활용하는 캐시 기반 다단계 검색 파이프라인을 구현한다. 파싱 단계에서 LLM 보조 재파싱을 도입해 비표준 형식이나 OCR 오류를 보정하고, 최종 단계에서는 텍스트 유사도와 메타데이터 일치도를 결합한 유사도 기반 분류기로 ‘유효’, ‘의심’, ‘무효’를 판정한다.

실험 I에서는 13개 최신 LLM(GPT‑5, Claude‑4 등)을 40개 CS 서브젝트 클래스에 매핑한 프롬프트로 375,440개의 인용을 생성하였다. 결과는 모든 모델이 최소 14.23%의 허위 인용을 생성했으며, 특히 Hunyuan은 94.93%라는 극단적인 허위율을 보였다. 도메인별 차이는 51.39%p에 달했으며, 이론적·실험적 컴퓨터 비전 분야에서 허위율이 가장 높았다.

실험 II에서는 2020‑2025년 사이 8개 AI·보안 주요 학회(NeurIPS, ICML 등)에서 56,381편 논문을 수집하고, 총 2,199,409개의 인용에 CiteVerifier를 적용하였다. 자동 검출 단계에서 2,530개의 의심 인용을 추출했으며, 16인 팀이 1개월간 수작업 검증한 결과 739개의 인용(604편 논문)이 확정적으로 무효임을 확인했다. 이는 전체 논문의 1.07%에 해당하고, 2025년에는 2020‑2024 평균 대비 80.9% 증가한 것으로 나타났다. 또한 동일한 허위 인용이 최대 16편 논문에 반복 등장하는 ‘오류 전파’ 현상도 관찰되었다.

실험 III에서는 300명의 잠재적 참여자를 무작위 추출해 설문을 배포하고, 94개의 유효 응답을 분석하였다. AI 도구 사용자는 87.2%였으며, 86.7%가 “항상 검증한다”고 답했지만 실제 행동에서는 41.5%가 BibTeX를 그대로 복사·붙여넣기하고, 44.4%가 의심스러운 인용에 대해 아무 조치도 취하지 않았다. 리뷰어(30명) 중 76.7%는 참고문헌을 철저히 검토하지 않으며, 80.0%는 가짜 인용을 의심하지 않는다. 이는 ‘검증 격차’를 명확히 드러내며, 학계 전반에 걸친 신뢰‑기본 정책이 허점임을 시사한다.

전체적으로 이 논문은 (1) LLM이 인용 생성 시 높은 허위율을 보이며 도메인 의존성이 크다는 점, (2) 실제 학술 기록에 이미 허위 인용이 침투했으며 그 비중이 급증하고 있다는 점, (3) 연구자와 리뷰어의 검증 관행이 체계적으로 실패하고 있다는 점을 입증한다. 제안된 대응책으로는 (가) CiteVerifier와 같은 자동화 검증 인프라의 도입, (나) 학술지·학회 차원의 AI 사용 공개 및 검증 의무화, (다) 교육·문화적 변화를 통한 검증 의식 강화가 있다. 한계점으로는 데이터베이스 커버리지가 완전하지 않으며, LLM 보조 파싱이 오히려 오류를 도입할 가능성이 있다는 점을 들 수 있다. 향후 연구는 멀티모달 검증, 인용 그래프 기반 이상 탐지, 그리고 정책 효과를 장기적으로 추적하는 메타‑과학 연구가 필요하다.

대규모 언어 모델 시대의 인용 정확성 위기

초록

상세 분석

댓글 및 학술 토론

의견 남기기