전문 번역가가 AI 생성 텍스트를 구별할 수 있을까
초록
본 연구는 이탈리아어 단편소설 3편(인간 저작 1편, AI 생성 2편)을 69명의 전문 번역가에게 제시하고, 각 텍스트가 AI가 만든 것인지 판단하도록 하였다. 평균적으로는 구별이 어려웠지만, 16.2%에 해당하는 11명의 번역가는 통계적으로 유의미하게 정확히 구별했으며, 또 다른 9명은 반대로 오판하였다. 주요 판별 근거는 ‘버스트니스 낮음’과 ‘내러티브 모순’ 등이며, 영어식 구문·어휘 전이도 AI 텍스트의 특징으로 지적되었다.
상세 분석
이 연구는 번역가의 언어 감각이 AI 생성 텍스트(이하 ST)를 식별하는 데 어느 정도 기여할 수 있음을 실증적으로 보여준다. 실험 설계는 3개의 텍스트를 무작위 순서와 기하학적 도형 라벨로 제시해 순서 효과를 최소화했으며, 0~10 점 척도로 AI 가능성을 평가하도록 하였다. 성공 기준을 ‘HT(인간 텍스트) 점수 ≤5, ST 점수 ≥5, 최고·최저 점수 차 ≥4점’으로 정의했을 때 11명(16.2%)이 통계적으로 유의미하게 구별했으며, 이는 무작위 추측(≈2.45% 이하)보다 현저히 높다. 반대로 9명은 정반대로 판단했는데, 이는 감정·문법 정확성 같은 인간적 특성을 오히려 AI의 신호로 착각했음을 시사한다.
판별 근거 분석에서는 ‘버스트니스 낮음(문장 길이·구조 변동성 부족)’과 ‘내러티브 모순(스토리 전개상의 비논리)’이 가장 신뢰할 만한 지표로 부각되었다. 이는 이전 연구에서 제시된 ST의 전형적 결함과 일치한다. 또한, 영어식 구문 전이(예: 불필요한 소유형용사 사용, 현재분사 남용), 구두점·인용 부호 처리 차이, 의미 차용(semantic loans) 및 직역(calque) 현상이 다수 보고되었다. 이러한 현상은 AI가 영어 기반 프롬프트를 이탈리아어로 변환하면서 발생하는 ‘언어 간 전이’ 문제를 반영한다.
통계적 검증에서는 Fisher 정확 검정과 카이제곱 검정을 활용했으며, 인구통계 변수(연령, 성별, 교육 수준, 모국어, 경력)와 성공 여부 사이에 유의한 상관관계는 발견되지 않았다. 이는 전문 번역가라는 직업적 배경 자체가 판별 능력에 영향을 미칠 가능성을 시사하지만, 개별적인 언어 감각이나 분석 전략이 더 결정적임을 의미한다.
마지막으로, Plagramme AI 탐지기 결과는 인간 텍스트와 AI 텍스트 간 차이가 객관적으로도 존재함을 보여준다(인간 텍스트 AI 탐지 점수 17% vs. ST 83~94%). 그러나 탐지기 점수와 번역가 판단 사이의 일치율은 높지 않아, 현재 자동 탐지 기술만으로는 전문가 수준의 판별을 대체하기 어렵다는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기