AI 생성 영상 시청 행동: 눈 움직임이 말해주는 진실

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 40명의 참가자를 대상으로 실제 물리 현상을 담은 영상과 최신 생성 AI가 만든 영상을 시청·판별할 때의 안구 움직임을 측정했다. 영상 이해 과제와 AI 판별 과제 두 상황에서 고정 횟수, 고정 지속시간, 사시 거리·스캔패스 길이, 동공 크기 등을 분석한 결과, 참가자들은 AI 존재 가능성을 인식하면 시청 방식이 크게 변한다는 것을 확인했다. 실제 영상 여부 자체보다는 ‘진짜라고 믿는지’에 따라 시선 패턴이 달라졌으며, 논리적 판별 전략을 사용한 사람은 더 일관된 시선 흐름을 보였다.

상세 분석

이 논문은 최신 텍스트‑투‑비디오 모델(Sora, VEO)로 생성된 물리·일상 장면 영상을 실제 촬영 영상과 짝지어, 두 가지 과제(영상 이해, AI 판별)에서 안구 추적 데이터를 수집·분석한 최초 연구이다. 실험 설계는 80개의 5초 길이 영상(각 40개씩 실영상·AI 영상)과 40명의 다양한 전공·연령대 참가자를 포함한다. 안구 데이터는 Gazepoint GP3(60 Hz)로 기록되었으며, 고정 횟수, 고정 지속시간, 사시 크기, 스캔패스 길이, 동공 직경(MPD) 등 다섯 가지 주요 지표를 산출했다.

핵심 결과는 세 가지 가설에 대한 검증으로 요약된다. 첫 번째 가설(H1)에서는 ‘AI 존재 인식’이 시선 행동을 변화시킨다. AI 판별 과제에서는 고정 횟수가 평균 13 % 증가하고 고정 지속시간은 1 % 이상 감소했으며, 사시 거리와 스캔패스 길이가 유의하게 늘어났다(p < 0.05). 이는 참가자들이 더 넓은 영역을 빠르게 샘플링하며, 특정 영역에 오래 머무르지 않고 전반적인 이상 징후를 탐색한다는 의미다. 흥미롭게도 동공 크기는 AI 판별 시 약간 감소했는데(p < 0.01), 이는 ‘비정상적’ 요소를 찾는 과정이 영상 이해보다 인지 부하가 낮은 전략으로 작동했을 가능성을 시사한다.

두 번째 가설(H2)인 ‘실영상 vs. AI 영상에 따른 시선 차이’는 부정적 결과를 보였다. 영상 유형 자체가 고정 횟수·지속시간·사시 거리 등에 유의한 차이를 만들지 못했으며, 이는 현재 생성 모델의 사실성(realism)이 인간 시각 시스템을 속일 정도로 높아졌음을 반증한다. 대신, 참가자들이 영상을 ‘진짜’라고 판단한 경우에만 시선 패턴이 달라졌다. 즉, 인지적 라벨(진실/가짜) 자체가 시선 배분을 조절한다는 점은 기존 정적 이미지 연구와 일치하지만, 동영상이라는 동적 매체에서도 동일하게 적용됨을 확인했다.

세 번째 가설(H3)은 ‘판별 전략에 따른 시선 차이’를 검증했다. 사후 설문에서 논리적 전략(예: 물리 법칙 위반, 비정상적 텍스처)과 직관적 전략을 구분한 결과, 논리적 전략을 채택한 참가자는 고정 위치의 분산이 낮고, 스캔패스가 더 일관된 패턴을 보였다(p < 0.05). 반면 직관에 의존한 그룹은 고정이 산발적으로 나타났으며, 정확도도 평균 58 %에 머물렀다. 이는 명시적 메타인지 전략이 시선 제어와 AI 판별 성능을 동시에 향상시킨다는 중요한 시사점을 제공한다.

통계적 분석은 비정규 분포를 고려해 Wilcoxon signed‑rank test와 부트스트랩 신뢰구간을 활용했으며, 효과 크기(Cohen’s d)도 보고했다. 데이터는 21,379개의 고정과 1,573개의 스캔패스로 충분히 파워를 확보했으며, 하드웨어 오류로 손실된 27개의 스캔패스는 전체 비율 1.3 %에 불과해 결과에 큰 영향을 미치지 않는다.

연구는 두 가지 영상 세트(물리 실험 영상, 전문 편집 영상)에서 성능 차이를 발견했다. 물리 영상에서는 평균 70.8 %의 정확도를 기록했지만, 전문 영상에서는 62.0 %에 머물렀다. 이는 물리 현상이 갖는 명확한 규칙성과 시각적 일관성이 AI 생성 오류를 더 쉽게 드러내는 반면, 일상 영상은 복잡한 텍스처와 움직임이 오류를 은폐할 가능성을 보여준다.

마지막으로, 저자들은 안구 추적 데이터를 인간 중심 AI 검출 메트릭으로 활용할 가능성을 제시한다. 고정 밀도 지도(heatmap)와 사시 거리 패턴을 실시간 피드백으로 변환하면, 사용자가 AI 생성 영상을 보다 효율적으로 탐지하도록 돕는 인터페이스 설계에 응용할 수 있다. 또한, 데이터셋을 공개함으로써 향후 멀티모달 신뢰성 평가, 인간‑AI 협업 감시 시스템 구축 등에 기여하고자 한다.

AI 생성 영상 시청 행동: 눈 움직임이 말해주는 진실

초록

상세 분석

댓글 및 학술 토론

의견 남기기