LLM과 인간 글쓰기의 어휘 다양성 비교: ChatGPT는 인간과 다르다
초록
본 연구는 ChatGPT‑3.5,‑4,‑o4 mini,‑4.5 네 모델이 생성한 논술문을 L1·L2 영어 학습자 240명의 인간 작성물과 비교한다. 어휘 다양성을 여섯 차원(볼륨, 풍부성, 다양‑반복, 균등성, 차이성, 분산)으로 측정한 결과, 모든 LLM 텍스트가 인간 텍스트와 통계적으로 유의하게 차이났으며, 최신 모델일수록 인간과의 차이가 커졌다. 인간 집단 내에서는 교육 수준·언어 상태에 따른 차이가 없었다.
상세 분석
이 논문은 ‘어휘 다양성’이라는 다차원적 개념을 정량화하기 위해 Jarvis와 Akbary가 제시한 여섯 지표를 활용하였다. 볼륨은 토큰 수, 풍부성은 레마 형태의 타입 수, 다양‑반복은 MATTR(50‑word sliding window)으로 측정하고, 균등성은 Shannon‑based 지표, 차이성은 WordNet sense index, 분산은 20‑word window 내 반복 간격을 역척도로 계산한다. 인간 참가자는 TOEFL 에세이 프롬프트에 250단어 이상으로 응답했으며, L1·L2 각각 120명씩, 교육 단계별(고등학교‑학사‑석사‑박사)로 균등 배분하였다. LLM은 제로샷 프롬프트와 온도 1.0(기본값)으로 30회씩 생성해 총 120개 텍스트를 확보했다.
통계 분석은 일원 MANOVA와 permutation‑based MANOVA, 그리고 사후 ANOVA를 통해 각 지표별 차이를 검증했으며, SVM 분류기를 이용해 인간·LLM 텍스트를 구분하였다. 결과는 일관되게 나타났다. 특히 ChatGPT‑o4 mini와 ChatGPT‑4.5는 인간 텍스트와 가장 큰 거리(효과 크기 d>0.8)를 보였고, 최신 모델인 4.5는 토큰 수는 적지만 풍부성·다양‑반복·차이성에서 높은 값을 기록했다. 이는 모델이 더 압축된 어휘를 사용하면서도 의미적 다양성을 인위적으로 확대하는 경향을 시사한다. 반면, 인간 집단에서는 교육 수준이나 L1/L2 여부에 관계없이 어휘 다양성 지표가 통계적으로 동등했으며, 이는 어휘 다양성이 개인의 언어 능력보다 텍스트 장르·과제 특성에 더 크게 좌우된다는 기존 연구와 일치한다.
SVM 분류 정확도는 92%에 달했으며, 특히 차이성·분산 지표가 모델 구분에 가장 큰 기여를 한 것으로 나타났다. 이는 LLM이 의미적 중복을 줄이고 단어 간 거리 패턴을 인간과 다르게 최적화한다는 점을 뒷받침한다. 논문은 이러한 차이가 교육 현장에서 LLM 활용 시 ‘인간‑유사성’ 보장을 위한 새로운 평가 기준이 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기