AI가 만든 이탈리아어 단편소설, 독자들은 어느 쪽을 더 선호할까

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

20명의 독자를 대상으로 AI가 생성한 두 편의 이탈리아어 단편소설과 알베르토 모라비아의 인간 저작을 무작위 순서와 기하학적 기호만 표시한 채 블라인드 실험을 진행했다. 평균 평점은 AI 텍스트가 약간 높았으며, 선호도에서도 AI 텍스트가 더 많이 1위를 차지했지만 차이는 미미했다. 연령, 성별, 교육 수준, 모국어, 독서 습관 등 인구통계학적·행태적 변수와 선호도 사이에는 통계적으로 유의한 연관성이 발견되지 않았다. 결과는 인간 저작이 반드시 독자 선호를 좌우하지 않으며, 합성 텍스트 편집(Synthetic‑Text Editing)의 필요성을 재검토할 여지를 제시한다.

상세 분석

본 연구는 이탈리아어 문학 분야에서 AI 생성 텍스트의 수용 가능성을 실증적으로 탐색한 최초 사례 중 하나로 평가할 수 있다. 실험 설계는 ‘블라인드’ 방식으로, 참가자들에게 텍스트의 출처를 전혀 알리지 않아 사전 편향을 최소화하였다. 텍스트 길이는 1331~1807단어로 비교적 짧아 일반 독자들이 45분 내에 모두 읽고 평가할 수 있도록 설계되었으며, 평점은 0‑10의 리커트 척도로 수집되었다. 두 개의 AI 텍스트는 ChatGPT‑4o를 이용해 모라비아의 ‘L’incosciente’를 모방하도록 프롬프트를 설계했으며, 인간 텍스트는 동일 작가의 원본을 사용하였다.

평점 평균은 인간 텍스트가 6.83 ± 1.71, AI 텍스트가 각각 7.33 ± 2.32와 7.42 ± 1.93으로, AI가 약 0.5~0.6점 우위에 있었다. 1위 선호 횟수에서도 AI 텍스트가 각각 94%와 83%로 인간 텍스트(17%)를 크게 앞섰다. 그러나 표준편차와 점수 분포를 고려하면 차이는 통계적 유의성을 확보하기엔 표본(유효 n=18)과 효과크기가 작아 제한적이다.

인구통계학적 변수와 독서 습관에 대한 연관 분석은 Fisher‑Exact 테스트와 Fisher‑Freeman‑Halton 정확 검정을 사용했으며, 모든 p값이 0.05를 초과했다. 특히 성별과 AI 텍스트 선호 사이에서 p = 0.057이라는 근접값이 나타났지만, 이는 다중 비교와 표본 크기 제한을 감안하면 확정적인 결론을 내리기 어렵다.

정성적 코멘트 분석은 인간 텍스트가 ‘서사 흐름’과 ‘대화’에서 긍정적 평가를 받는 반면 ‘전개 속도’와 ‘장황함’에서 비판을 받았고, AI 텍스트는 ‘문체의 유려함’과 ‘감정적 몰입감’이 강조되었지만 ‘진부함’이나 ‘예측 가능성’에 대한 지적도 있었다. 이는 독자들이 문학적 품질을 언어적 정확성보다 서사적·감정적 요소에 더 중점을 두고 평가했을 가능성을 시사한다.

연구의 제한점으로는 표본이 지역 도서관 이용자 20명에 국한됐으며, 일부 참가자는 연구자를 알고 있었다는 점, 그리고 인구통계 설문 응답률이 75%에 머물렀다는 점을 들 수 있다. 또한 AI 텍스트와 인간 텍스트가 동일한 주제·구조를 공유했지만, 원본 텍스트가 1950년대 작품이라는 점에서 시대적 문체 차이가 인지에 영향을 미쳤을 가능성도 있다.

결론적으로, AI가 만든 이탈리아어 단편소설이 인간 저작과 거의 동등하거나 약간 우위에 있을 수 있음을 보여주지만, 현재의 실험 설계와 표본 규모로는 일반화에 한계가 있다. 향후 연구에서는 더 다양한 장르·길이·작성 모델을 포함하고, 전문 번역가·문학 평론가와 일반 독자를 비교하는 다층적 설계가 필요하다. 또한, 합성 텍스트 편집(Synthetic‑Text Editing)의 실제 효과를 검증하기 위해 편집 전·후 텍스트를 동일 집단에 재평가하도록 하는 실험이 요구된다.

AI가 만든 이탈리아어 단편소설, 독자들은 어느 쪽을 더 선호할까

초록

상세 분석

댓글 및 학술 토론

의견 남기기