LLM이 기억하는 공동저자 목록: 학문 분야와 지역 불균형 분석

LLM이 기억하는 공동저자 목록: 학문 분야와 지역 불균형 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대형 언어 모델(LLM)이 학술 데이터베이스에서 공동저자 목록을 재구성할 때 나타나는 기억 기반 편향을 조사한다. DeepSeek R1, Llama 4 Scout, Mixtral 8x7B 세 모델을 1,596명의 연구자를 대상으로 평가했으며, 인용 횟수가 높은 저자는 낮은 저자보다 공동저자 재현 정확도가 현저히 높았다. 그러나 임상의학 분야와 아프리카 일부 지역에서는 이러한 격차가 완화되는 등 학문 분야·지역별 차이가 존재한다.

상세 분석

이 논문은 LLM의 ‘기억’ 메커니즘이 학술 공동저자 관계 재구성에 어떻게 작용하는지를 정량적으로 밝히는 최초의 시도라 할 수 있다. 저자들은 먼저 OpenAlex와 Google Scholar를 기준 데이터베이스로 삼아 10개 학문 분야와 8개 세계 지역에 걸쳐 1,596명의 시드 저자를 선정하였다. 각 저자를 인용 횟수 상위와 하위 10명씩 추출해 고·저 인용군을 형성하고, 이를 통해 인용 빈도가 모델의 기억 강도에 미치는 영향을 검증한다.

LLM의 기억을 측정하기 위해 기존의 ‘Discoverable Extraction’ 개념을 공동저자 리스트에 맞게 변형한 ‘Discernable Name Extraction (DNE)’ 점수를 도입하였다. DNE는 기준 데이터베이스에 존재하는 공동저자 성을 LLM이 생성한 리스트와 레벤슈타인 유사도(임계값 τ=0) 기준으로 매칭하여 재현 비율을 산출한다. 이 방식은 단순 텍스트 일치를 넘어 이름 변형·다이어크리틱까지 포괄적으로 평가한다는 점에서 의미가 크다.

실험 결과, 모델 규모가 클수록(DeepSeek R1 > Llama 4 Scout > Mixtral 8x7B) DNE 점수가 전반적으로 상승했으며, 특히 인용 횟수가 높은 저자군에서 평균 15~30%p 높은 점수를 기록했다. 이는 대형 모델이 훈련 코퍼스 내에서 반복적으로 등장하는 참고문헌 정보를 더 잘 기억한다는 가설을 실증한다.

학문 분야별 분석에서는 ‘임상의학(Clinical Medicine)’이 유일하게 고·저 인용군 간 DNE 차이가 통계적으로 유의미하지 않았다. 이는 임상의학 분야가 다른 분야에 비해 공동연구가 보다 분산되고, 저자 이름이 다양한 출처에 고르게 나타나는 구조적 특성 때문일 가능성이 있다.

지역별로는 DeepSeek R1이 ‘사하라 이남 아프리카(Sub‑Saharan Africa)’에서, Mixtral 8x7B가 ‘북아프리카(North Africa)’에서 저인용 저자군의 DNE 점수가 고인용군과 거의 동일했다. 이는 해당 지역의 학술 출판물이 상대적으로 균형 잡힌 데이터셋으로 포함되었거나, 모델 훈련 시 지역별 데이터 비중이 고르게 배분된 결과로 해석될 수 있다.

한편, 저자 선정 기준(인용 100회 이상)과 데이터베이스의 커버리지 차이, 이름 매칭 시 Levenshtein 임계값 설정 등 방법론적 한계가 존재한다. 특히 저인용 저자 중 일부는 실제로 훈련 데이터에 거의 노출되지 않아 ‘기억 부재’가 아닌 ‘데이터 부재’일 가능성을 배제할 수 없다. 또한, 모델이 실제로 기억한 내용인지 통계적 일반화에 의한 추론인지를 구분하기 위한 추가 실험이 필요하다.

결론적으로, 이 연구는 LLM이 학술 메타데이터를 재현할 때 기존 학술 생태계의 가시성 격차를 그대로 반영하거나 심화시킬 위험이 있음을 경고한다. 모델 규모와 훈련 데이터의 지역·분야 편중이 기억 기반 편향을 결정짓는 주요 요인임을 확인했으며, 향후 LLM을 학술 검색·추천 시스템에 적용할 때는 이러한 메커니즘을 투명하게 감사하고, 저인용·저가시성 연구자를 위한 보정 전략을 마련해야 함을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기