LLM이 만든 참고문헌, 구조는 인간과 동일하지만 의미는 달라
초록
본 연구는 GPT‑4o와 Claude Sonnet 4.5가 생성한 참고문헌 리스트를 실제 인간이 만든 리스트와 비교한다. 인용 그래프의 구조적 특성만으로는 두 집단을 구분하기 어렵지만, 논문 제목·초록 임베딩을 활용하면 90% 이상 정확도로 구별이 가능함을 보여준다. 즉, LLM은 인간과 유사한 인용 토폴로지를 모방하지만 의미적 ‘지문’은 남긴다.
상세 분석
이 논문은 10 000개의 초점 논문(총 274 951개의 참고문헌)에서 인간이 실제 인용한 그래프와 GPT‑4o가 제시한 인용 그래프를 쌍으로 만든 뒤, 동일한 필드와 아웃‑디그리(참고문헌 수)를 유지하면서 구조를 무작위화한 베이스라인 그래프를 추가로 생성하였다. 구조적 특징으로는 정규화된 degree, closeness, eigenvector centrality, clustering coefficient, edge count를 노드 수준에서 계산하고, 평균·중위·IQR·max/mean 비율 등 4가지 요약 통계로 그래프 수준 특성을 만들었다. Random Forest(RF) 분류기로 세 클래스를 학습했을 때, 구조만 사용했을 경우 GPT‑4o와 인간 그래프를 구분하는 정확도는 0.60 수준에 그쳤지만, 무작위 베이스라인과는 0.89~0.92로 명확히 구분되었다. 이는 LLM이 인간과 거의 동일한 토폴로지를 재현한다는 것을 의미한다.
다음 단계에서는 각 논문의 제목·초록을 OpenAI 3072‑dimensional 임베딩과 SPECTER 임베딩으로 변환하고, 그래프 수준에서 평균·표준편차·최대값 등을 집계했다. 이 임베딩 기반 RF는 인간‑GPT 구분 정확도를 약 0.83으로 끌어올렸다. 더 나아가 Graph Neural Network(GNN, GraphSAGE, GAT 등)를 노드 임베딩을 입력 피처로 사용해 학습시켰을 때, 테스트 정확도는 0.93에 달했다. 즉, 의미적 신호가 구조적 신호보다 훨씬 강력한 구분력을 제공한다는 결론이다.
또한 Claude Sonnet 4.5에 대해서도 동일 파이프라인을 적용했으며, 결과는 GPT‑4o와 유사했다(인간‑Claude 구분 정확도 ≈ 0.77). 다양한 임베딩 모델(OpenAI, SPECTER)과 무작위 베이스라인(필드‑레벨, 서브필드‑레벨, 시간제한)에서도 일관된 패턴이 관찰되었다. 무작위 그래프는 언제나 구조·의미 모두에서 인간·LLM 그래프와 크게 차이났으며, 이는 실험 설계가 충분히 강건함을 보여준다.
핵심 인사이트는 다음과 같다. ① LLM이 생성한 참고문헌은 인간이 만든 인용 네트워크와 거의 동일한 구조적 특성을 보인다(핵심 노드, 클러스터링, 평균 차수 등). ② 그러나 LLM은 내부 파라미터 지식에 기반해 의미적 유사성을 판단하기 때문에, 동일 필드·연도·아웃‑디그리를 유지하더라도 텍스트 임베딩 상에서 인간과 차별화된 ‘시멘틱 핑거프린트’를 남긴다. ③ 따라서 LLM 기반 자동 참고문헌 생성·추천 시스템을 감시하거나 디버깅할 때는 전역 그래프 구조보다는 텍스트 내용(임베딩) 분석이 더 효과적이다. ④ 이러한 의미적 차이는 학술적 편향(예: 매튜 효과, 최신 논문 편향)과 결합될 경우, 장기적으로 인용 네트워크 자체에 왜곡을 일으킬 가능성이 있다. 마지막으로, 연구자는 GNN 기반 탐지 모델을 오픈소스로 제공해 향후 LLM‑generated 참고문헌을 실시간으로 식별하고, 필요 시 인간 검증 단계로 되돌리는 워크플로우를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기