LLM이 학술 논문의 언어에 미친 변화: 다중 데이터베이스와 전문 텍스트 분석

본 연구는 2015‑2024년 사이 6개 주요 학술 데이터베이스와 2021‑2025년 PMC 전자 논문 240만 건을 대상으로, “delve”, “underscore”, “intricate” 등 12개의 LLM 관련 용어 사용 빈도와 동시 출현을 분석한다. ChatGPT 공개 이후 STEM 분야에서 용어 사용이 급증했으며, 특히 “underscore”는 2

LLM이 학술 논문의 언어에 미친 변화: 다중 데이터베이스와 전문 텍스트 분석

초록

본 연구는 2015‑2024년 사이 6개 주요 학술 데이터베이스와 2021‑2025년 PMC 전자 논문 240만 건을 대상으로, “delve”, “underscore”, “intricate” 등 12개의 LLM 관련 용어 사용 빈도와 동시 출현을 분석한다. ChatGPT 공개 이후 STEM 분야에서 용어 사용이 급증했으며, 특히 “underscore”는 2022‑2025년 사이 10,000% 이상 증가했다. 용어 간 상관관계도 강화돼, 2024년에는 LLM 용어가 함께 등장할 확률이 크게 높아졌다. 결과는 LLM이 학술 글쓰기의 언어 장벽을 낮추는 긍정적 역할을 하고 있음을 시사한다.

상세 요약

본 논문은 두 차원의 데이터셋을 활용해 LLM 용어 확산 현상을 정량화하였다. 첫 번째 차원은 Scopus, Web of Science, PubMed, PubMed Central, Dimensions, OpenAlex 등 6개 데이터베이스에서 2015‑2024년 사이 발표된 논문 메타데이터를 추출해 12개의 사전 정의된 LLM‑연관 용어(예: “delve”, “underscore”, “intricate”, “meticulous” 등)의 연도별 출현 빈도를 계산하였다. 두 번째 차원은 PMC에서 제공하는 2.4백만 건 이상의 전면 텍스트를 대상으로, 2021‑2025년(예상) 기간 동안 동일 용어들의 텍스트 내 등장 횟수와 용어 간 동시 출현 패턴을 분석하였다.

통계적으로는 2022‑2024년 구간에 “delve”가 1,500%, “underscore”가 1,000%, “intricate”가 700% 증가했으며, 특히 STEM(과학·기술·공학·수학) 분야에서 비약적인 성장세를 보였다. 사회과학·인문학 분야는 상대적으로 완만했지만, 전체 논문 중 LLM 용어를 포함한 비율이 2024년에는 0.8% 수준으로, 2022년 대비 약 5배 상승하였다.

전문 텍스트 분석에서는 “underscore”가 2022년 대비 2025년에는 10,000% 이상 사용 빈도가 늘었으며, 이는 “intricate”(5,400%)와 “meticulous”(2,800%)에 이어 두 번째로 큰 폭이다. 2024년 PMC 논문 중 LLM 용어를 하나라도 포함한 경우, 절반 가량이 “underscore”를 동반했는데, 이는 2022년 이전(3‑14%)에 비해 현저히 높은 비율이다.

용어 간 상관관계 분석에서는 2024년 “underscore”와 “pivotal”(피어스 상관계수 0.449), “delve”(0.311) 사이에 강한 양의 상관이 나타났으며, 2022년에는 각각 0.032, 0.018에 불과했다. 이는 LLM 관련 용어가 독립적으로 사용되던 시기에서, 서로 연관된 어휘 집합으로 재구성되고 있음을 의미한다.

방법론적으로는 정규표현식 기반 토큰 매칭과 TF‑IDF 가중치를 활용해 용어 빈도를 정교히 측정했으며, 연도별 성장률은 로그 변환 후 선형 회귀 모델을 적용해 추정하였다. 또한, 분야별 분류는 Scopus와 Web of Science의 주제 분류 체계를 매핑해 STEM vs. SSH(사회·인문) 구분을 수행하였다.

한계점으로는 데이터베이스마다 색인 정책이 다르기 때문에 용어 누락 가능성이 존재하고, PMC 전면 텍스트는 오픈 액세스 논문에 국한돼 전체 학술 출판물의 대표성을 완전히 확보하지 못한다는 점을 언급한다. 그럼에도 불구하고, 다중 데이터베이스와 전면 텍스트를 동시에 활용한 최초의 대규모 정량 연구라는 점에서 학술 커뮤니케이션 연구에 중요한 기여를 한다.

결론적으로, LLM 기술이 학술 글쓰기에서 새로운 어휘 트렌드를 촉발하고 있으며, 특히 “underscore”와 같은 메타언어적 표현이 급증함으로써 논문의 서술 방식이 보다 정교하고 복합적으로 변모하고 있음을 확인한다. 이는 비영어권 연구자들의 진입 장벽을 낮추고, 전 세계 학술 커뮤니케이션의 포용성을 확대하는 긍정적 효과를 기대하게 한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...