LLM이 학술 논문에 미치는 언어적 변화와 그 추정 방법

본 논문은 대형 언어 모델(LLM)이 학술 논문 작성에 미치는 영향을 정량적으로 파악하고, 그 변화를 시계열적으로 추적한다. 연구자는 arXiv 데이터베이스에서 2015년부터 2026년까지 2,900만 건 이상의 논문 초록과 제목을 수집하고, 정규화된 단어 빈도(frequency per 10,000 tokens)를 계산하였다. 초기 분석에서는 “beyond”, “via”와 같은 단어가 최근 몇 년간 급격히 증가했으며, 전통적인 관사·전치사인 “the”, “of”는 감소 추세를 보인다는 사실을 발견했다. 이러한 현상은 LLM이 생성한 텍스트에서 흔히 나타나는 스타일 변화와 일치한다는 가설을 세웠다. 이를 검증하기 위해 저자는 선형 베이스라인 모델을 도입했다. 과거(2015‑2021) 데이터에 대해 각 단어 w에 대해 f_w(t)=a_w + b_w·t 라는 선형 회귀를 수행하고, 이를 기반으로 LLM이 등장하기 전(2022년 이전)까지의 추세를 예측하였다. 이후 실제 관측치와 예측치의 비율 r_w(t)=f_d,w(t)/f_pred,w(t) 를 계산함으로써 LLM이 단어 사용에 미친 상대적 영향을 정량화했다. r_w(t) 값이 1보다 크게 되면 해당 단어 사용이 LLM에 의해 촉진된 것으로 해석한다. 다음 단계에서는 다양한 최신 LLM을 활용해 실제 초록을 재작성하거나 제목을 생성하는 시뮬레이션을 수행했다. 사용된 모델은 GPT‑3.5, GPT‑4o‑mini, GPT‑5‑nano, DeepSeek‑V3·R1·V3.2, Gemini‑2.5·Flash·Pro·3, Claude‑Haiku·3·4.5 등 총 9가지이며, 각 모델에 대해 짧은 프롬프트와 긴 프롬프트 두 종류를 적용했다. 시뮬레이션 결과는 인간이 작성한 텍스트와 비교했을 때 ROUGE‑1/2/L, BERTScore 등에서 높은 유사도를 보였지만, 모델마다 특정 단어 선호도가 뚜렷이 차이나는 것이 확인되었다. 예를 들어, 최신 DeepSeek·GPT‑5 모델은 “via”, “beyond”를 과다 사용하는 경향이 있었으며, 반면 GPT‑3.5는 “the”, “of”와 같은 일반적인 관사를 더 많이 포함했다. 또한, 저자는 LLM이 생성한 텍스트를 모델별로 구분하는 다중 클래스 분류 실험을 수행했다. BERT, GPT‑2, T5, LLM2Vec 등 네 가지 최신 분류기를 사용했지만, 정확도는 기대 이하였으며 특히 프롬프트가 다변화될 경우 구분이 더욱 어려워졌다. 이는 현재 공개된 분류기들이 모델 간 미세한 스타일 차이를 포착하기에 한계가 있음을 시사한다. 단어 빈도 변화를 정량화하기 위해 저자는 단어별 변화 비율 r_{w,m}= (f_{m,w} - f_{0,w}) / f_{0,w} 와 모델 간 변동성 지표인 변동계수 CV_{w,p}=√Var_{w,p} / 평균_{w,p} 를 정의했다. 이를 통해 20개의 가장 빈번한 단어와 가장 적게 사용되는 단어에 대한 모델별 선호도를 시각화했으며, “together”, “delve”, “intricate”와 같은 특정 용어가 모델 버전 및 프롬프트에 따라 급격히 변동하는 모습을 확인했다. 결과적으로, 논문은 다음과 같은 주요 결론을 도출한다. 첫째, LLM 사용이 학술 논문의 언어적 특성을 변화시키고 있으며, 특히 “beyond”, “via”와 같은 새로운 표현이 급증하고 있다. 둘째, 선형 기반의 해석 가능한 모델을 통해 LLM이 단어 사용에 미친 영향을 정량화할 수 있다. 셋째, 현재의 텍스트 분류 기술로는 LLM 모델을 정확히 구분하기 어렵다. 넷째, LLM은 지속적으로 업데이트되면서 단어 선호도가 동적으로 변하고, 이는 학술 커뮤니케이션 전반에 새로운 변수를 도입한다. 저자는 이러한 변화를 지속적으로 모니터링하고, 보다 정교한 추정 기법과 정책적 대응이 필요함을 강조한다.

LLM이 학술 논문에 미치는 언어적 변화와 그 추정 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기