컴퓨터 생성 텍스트 탐지 알고리즘

초록

이 논문은 학술 논문에서 컴퓨터가 자동 생성한 텍스트를 식별하기 위한 특징 기반 머신러닝 분류기를 제안한다. 200편의 논문(인간 작성·자동 생성 각각 100편)을 대상으로 형식·내용적 단서를 정량화한 여러 특징을 추출하고, 이들을 이용해 이진 분류 모델을 학습한다. 실험 결과, 자동 생성 논문을 인간 논문으로 오분류하는 경우는 없으며, 인간 논문을 자동 생성으로 오분류하는 비율은 2%에 불과했다. 연구는 이러한 특징이 스팸·광고 등 다른 텍스트 위조 탐지에도 확장 가능함을 시사한다.

상세 요약

본 연구는 학술 회의에서 발견된 컴퓨터 자동 생성 논문의 문제점을 정량적으로 해결하고자 한다. 먼저 기존 스팸 필터링이 주로 키워드 기반인 반면, 자동 생성 논문은 구조적·형식적 패턴을 이용해 인간 검토를 회피한다는 점을 지적한다. 이를 바탕으로 저자들은 논문의 서지 정보, 인용 패턴, 섹션 헤더 빈도, 문장 길이 분포, 어휘 다양성, n‑gram 통계 등 12가지 특징을 정의한다. 특히 인용 네트워크의 비정상적 연결성(예: 동일 저자·연도 반복)과 섹션 제목의 반복성은 인간이 작성할 경우 거의 나타나지 않는 패턴으로 활용된다. 특징 추출 후에는 표준화 과정을 거쳐 SVM, 로지스틱 회귀, 랜덤 포레스트 등 여러 분류 알고리즘에 입력한다. 교차 검증 결과, 선형 SVM이 가장 높은 F1 점수를 기록했으며, 전체 정확도는 99%에 달한다. 특히 자동 생성 논문을 인간 논문으로 오분류하는 경우가 전혀 없었고, 인간 논문을 자동 생성으로 오분류한 비율은 2%에 머물렀다. 오류 분석에서는 주로 짧은 초록이나 참고문헌이 부족한 인간 논문이 오분류되는 경향을 보였으며, 이는 특징 집합에 문맥적 의미를 추가하면 개선될 수 있다. 연구는 또한 제안된 특징이 이메일 스팸, 온라인 광고, 소셜 뉴스 게시물 등 다양한 텍스트 위조 상황에 적용 가능함을 논의한다. 한계점으로는 데이터셋 규모가 제한적이며, 최신 생성 모델(GPT‑계열) 대비 성능 검증이 부족하다는 점을 들었다. 향후 연구에서는 대규모 데이터와 딥러닝 기반 특징 학습을 결합해 더욱 일반화된 탐지 시스템을 구축할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)