ASCII 코드와 PCA를 이용한 문장 구조의 통계적 분석
초록
본 연구는 복잡한 구문 분석 도구에 의존하지 않고, ASCII 코드 표현과 주성분 분석(PCA)을 활용하여 다양한 텍스트 코퍼스의 문장 구조 균형을 평가하는 새로운 통계적 방법을 제안합니다. 11개의 다양한 텍스트 소스에 대한 실험 결과, 인간이 작성한 블로그 및 기사 텍스트는 구조적 균형을 보이는 반면, 대부분의 AI 생성 텍스트 및 영화 리뷰 데이터는 정규 분포에서 벗어난 패턴을 나타냈습니다.
상세 분석
이 연구의 핵심 방법론은 텍스트 데이터를 고전적인 ASCII 코드로 변환하여 처리하는 데 있습니다. 이는 복잡한 단어 임베딩이나 구문 분석을 배제함으로써 계산 효율성을 극대화하는 접근법입니다. 구체적으로, 17개의 어휘 범주(명사, 동사, 형용사 등) 각각을 ASCII 문자열로 변환한 후, PCA를 적용하여 이를 하나의 압축된 벡터(¯K)로 축소합니다. 동시에, 분석 대상 텍스트 코퍼스의 각 문장도 ASCII로 변환 후 PCA를 통해 17차원 벡터(¯J)로 축소합니다. 최종적으로 두 벡터 간의 내적(lexical alignment)을 계산하여 그 값의 분포를 Shapiro-Wilk 및 Anderson-Darling 검정을 통해 정규성을 평가합니다.
주요 통찰은 다음과 같습니다. 첫째, ASCII 표현과 PCA 변환 과정에서 누적 설명 분산이 1에 가까웠는데, 이는 ASCII 인코딩이 본질적으로 저엔트로피 특성을 가져 정보 중복성이 높음을 의미하며, 이로 인한 차원 축소의 효율성이 실험의 기반이 되었습니다. 둘째, 실험 결과, ‘균형 잡힌’ 텍스트(블로그, 기사 등)의 내적 값 분포는 정규성 검정을 통과한 반면, 영화 리뷰 데이터셋과 Grok AI가 생성한 이야기는 통과하지 못했습니다. 특히 AI 생성 텍스트는 시각적으로 종형 곡선을 보였으나 통계 검정에서는 정규성 가정이 기각되었는데, 이는 문장 길이 분포가 제한적이며(200자 미만), 특정 어휘 범주의 사용 패턴이 자연스럽지 않을 수 있음을 시사합니다. 이 방법은 복잡한 NLP 파이프라인을 대체하기보다는, 텍스트의 구조적 균형과 스타일을 빠르게 스크리닝하는 보조적 도구로서의 잠재력을 보여줍니다.
댓글 및 학술 토론
Loading comments...
의견 남기기