인간과 AI가 쓴 에세이의 언어적 차이를 자동 추출 특징으로 구분하기
초록
이 연구는 인간이 쓴 IELTS 에세이 5편과 동일 과제·길이로 생성된 ChatGPT‑4 에세이 5편을 Open Brain AI 도구로 94개의 음운·형태·통사·어휘 지표로 분석한다. 비모수 Wilcoxon 검정과 Hedges’ g 효과크기로 각 특징의 차이를 검증하고, LASSO 회귀로 구분에 기여하는 변수를 선정한다. 결과는 자음 종류, 명사·형용사·대명사 비중, 수식어 사용, 난이도 높은 어휘 등에서 유의한 차이를 보이며, AI 텍스트가 인간보다 더 높은 어휘 밀도와 구조적 균일성을 갖는다는 점을 확인한다.
상세 분석
본 논문은 인간이 직접 작성한 IELTS 작문 샘플과 최신 GPT‑4 기반 ChatGPT가 동일 프롬프트와 길이 제한 하에 생성한 텍스트를 비교함으로써, 인공지능이 인간의 언어적 특성을 어느 정도 모방하는지를 정량적으로 평가한다. 데이터는 총 10편(인간 5편, AI 5편)이며, 평균 310단어(표준편차 48.19)로 길이와 주제가 일치하도록 설계되었다. 텍스트 전처리는 Unicode 정규화, 공백·인용부호 표준화 등 최소한의 변형만을 적용해 원문 구조를 보존하였다.
분석 도구로 선택된 Open Brain AI는 음운(22개 지표), 형태(15개), 통사(44개), 어휘(13개) 등 총 94개의 언어학적 특성을 자동 추출한다. 이 중 80% 이상의 텍스트에 나타나는 변수만을 최종 분석에 포함시켜, 희소하거나 특이한 지표가 결과에 과도히 영향을 미치는 것을 방지하였다.
통계적 검증은 R 환경에서 Wilcoxon rank‑sum 검정을 사용했으며, 다중 비교 보정을 위해 Holm 방법을 적용하였다. 효과크기는 Hedges’ g로 계산해 95% 신뢰구간을 제시함으로써 차이의 실질적 의미를 파악한다. 각 언어 영역별로 LASSO 회귀 모델을 별도로 구축해, AI와 인간 텍스트를 구분하는 핵심 변수를 선택한다. LASSO는 변수 선택과 정규화를 동시에 수행해, 과적합 위험을 최소화하고 해석 가능한 계수를 제공한다.
주요 결과는 다음과 같다. 음운 수준에서는 특정 자음(예: 무성 파열음)의 비중이 AI 텍스트에서 유의하게 높았다. 형태적 측면에서는 명사의 절대 빈도가 AI에서 증가하고, 대명사와 조동사의 사용이 감소했다. 통사 분석에서는 전치사·형용사 수식어와 같은 부가적 수식구가 인간 텍스트에 비해 AI 텍스트에서 현저히 적었으며, 문장 구조가 보다 템플릿화된 경향을 보였다. 어휘 영역에서는 난이도 높은 단어(긴 형태소, 낮은 빈도)의 비중이 AI 텍스트에서 상승했으며, 전체 어휘 다양성(TTR)은 인간보다 낮았다. 이러한 차이는 AI가 인간의 ‘기능어·연결어’를 통한 맥락 유지보다는 내용 중심의 고밀도 어휘 사용에 치중함을 시사한다.
연구는 작은 표본(10문서)에도 불구하고, 통제된 과제와 동일한 길이 설정을 통해 변수 간 혼동을 최소화했으며, 자동화된 도구를 활용한 정량적 접근이 언어학적 차이를 명확히 드러낼 수 있음을 보여준다. 다만, 샘플 규모와 주제 다양성의 제한, GPT‑4의 내부 파라미터(temperature 등)를 조정할 수 없는 점은 결과의 일반화에 제약을 만든다. 향후 연구에서는 더 큰 코퍼스와 다양한 LLM 버전을 포함해, 다중 언어 및 장르에 걸친 비교를 수행하고, 검출 모델에 통계적 특징을 통합함으로써 보다 강건한 AI‑Human 텍스트 구분 시스템을 개발할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기