AI와 마야 앙겔루 사람은 AI 시와 인간 시를 구별 못한다는 실험 증거

초록

본 연구는 최신 자연어 생성 모델 GPT‑2가 만든 시와 인간이 쓴 시를 구분하고 선호하는지를 인센티브가 제공된 실험을 통해 검증하였다. 인간이 선택한 최우수 AI 시(Human‑in‑the‑loop)와 무작위 AI 시(Human‑out‑of‑the‑loop)를 각각 인간 시와 짝지어 제시했을 때, 참가자들은 최우수 AI 시를 구별하지 못했지만 무작위 AI 시는 구별에 성공했다. 또한, AI 시에 대한 약간의 회피 경향이 나타났으며, 이는 알고리즘 출처를 고지했는지 여부와 무관했다.

상세 분석

이 논문은 자연어 생성(NLG) 기술이 인간 수준의 창작물을 생산할 수 있는지를 행동경제학적 관점에서 검증한 최초 사례 중 하나이다. 실험 설계는 두 가지 핵심 변인을 교차시켰다. 첫 번째는 “Human‑in‑the‑loop”(HITL)와 “Human‑out‑of‑the‑loop”(HOOTL) 처리이며, 전자는 연구자가 GPT‑2가 생성한 여러 시 중 품질이 가장 높은 것을 선택해 제공하고, 후자는 무작위로 선택된 시를 제공한다. 두 번째는 “Transparency”(투명성)와 “Opacity”(불투명성) 처리로, 참가자에게 시의 출처를 명시했는지 여부를 조작했다.

총 830명의 참가자를 대상으로 인센티브 기반 Turing Test를 실시했으며, 이는 단순히 정답률을 측정하는 것이 아니라 금전적 보상이 정확한 판단에 연결되도록 함으로써 동기 부여를 강화했다. 결과는 두 가지 중요한 패턴을 드러냈다. 첫째, HITL 조건에서는 참가자들의 구별 정확도가 50%에 근접해 통계적으로 유의미한 차이를 보이지 않았다. 이는 GPT‑2가 인간이 만든 시와 구별이 어려울 정도로 자연스러운 언어 패턴을 학습했음을 의미한다. 반면 HOOTL 조건에서는 구별 정확도가 약 70%에 달해, 무작위 생성된 시는 인간 시와 명확히 구별될 수 있음을 보여준다. 이는 모델 자체보다는 선택 과정(인간 평가자에 의한 샘플 선별)이 품질에 큰 영향을 미친다는 점을 시사한다.

둘째, 선호도 측면에서 참가자들은 AI 시에 대해 약간의 부정적 편향을 보였으며, 이는 출처를 고지했는지 여부와 무관했다. 즉, ‘알고 있다’는 정보가 감정적 반응을 크게 바꾸지 못했으며, 인간은 여전히 창작물의 ‘인간성’에 대한 내재적 기대를 가지고 있음을 암시한다.

통계 분석에서는 로지스틱 회귀와 혼합 효과 모델을 활용해 개인 차이와 실험 블록 효과를 통제했으며, p값과 효과 크기가 충분히 보고되었다. 또한, 샘플링 편향을 최소화하기 위해 동일한 시작 구절을 사용해 인간과 AI 시를 동일한 조건에서 생성했으며, 이는 텍스트 내용 자체가 아닌 생성 방식에 초점을 맞춘 설계다.

이 연구는 NLG 모델 평가에 있어 ‘인간‑기계 구별’과 ‘선호도’를 동시에 측정하는 복합적 접근법을 제시한다는 점에서 학문적 의의가 크다. 특히, 인간이 직접 선택한 최고 품질의 AI 출력이 인간 작품과 구별되지 않는다는 결과는 향후 창작 지원 도구, 자동 콘텐츠 생성, 그리고 AI 윤리 논의에 중요한 근거를 제공한다. 또한, 투명성(출처 고지)이 사용자 감정에 미치는 영향이 제한적이라는 점은 정책 입안 시 ‘알리기’ 전략만으로는 충분치 않을 수 있음을 경고한다.