눈 움직임으로 기억 읽기: 재독 판별 모델

눈 움직임으로 기억 읽기: 재독 판별 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 독자가 텍스트를 처음 읽는지 재독하는지를 눈 움직임 데이터만으로 자동 판별하는 두 가지 과제를 제시한다. 180명의 영어 원어민을 대상으로 한 OneStop Eye Movements 데이터셋을 활용해, 전통적인 심리언어학 기반 특징과 최신 멀티모달 언어 모델(RoBERTa‑Eye)을 결합한 모델을 설계하였다. 또한 E‑Z Reader 시뮬레이션을 이용해 합성 스캔패스를 생성, 모델에 보강 정보로 제공함으로써 성능을 크게 향상시켰다. 실험 결과, 특징 기반 XGBoost와 신경망 모델 모두 70% 이상 정확도를 달성했으며, 합성 데이터 활용이 특히 단일 시도 과제에서 유의미한 개선을 가져왔다.

상세 분석

이 논문은 “첫 번째 읽기 vs. 두 번째 읽기”라는 이진 분류 문제를 두 가지 변형으로 정의한다. 첫 번째는 Single Trial Task로, 단일 눈 움직임 기록만을 입력받아 해당 기록이 첫 번째 읽기인지 재독인지를 예측한다. 두 번째는 Paired Trial Task로, 동일 참가자가 같은 텍스트를 두 번 읽은 기록을 무작위 순서로 제시하고, 어느 것이 첫 번째 읽기인지 구분한다. 이러한 과제 설정은 기존 연구가 평균적인 반복 효과만을 기술한 것과 달리, 개별 독자‑텍스트 쌍 수준에서 메모리 효과를 정량화하려는 시도이다.

데이터는 OneStop Eye Movements(2025)에서 제공되며, 180명의 참가자가 가디언 뉴스 기사 10개씩을 읽고, 마지막 기사와 무작위로 선택된 이전 기사에 대해 재독을 수행한다. 총 360개의 재독 기록(연속 재독 180, 비연속 재독 180)과 1,944개의 단락 단위 눈 움직임 시퀀스가 포함된다. 각 기록은 고정(fixation)과 급속(saccade) 정보를 포함한 풍부한 메트릭을 제공한다.

특징 기반 모델은 35개의 전역 특징을 사용한다. 여기에는 전통적인 눈 움직임 지표(총 고정 시간, 첫 고정 시간, 시선 지속 시간, 고정 수, 스킵 비율, 역행 비율)와 단어 특성(빈도, 서프라이얼, 길이)에 대한 회귀 계수, 그리고 스캔패스 그래프에서 추출한 7개의 네트워크 중심성·클러스터링 지표가 포함된다. 이러한 특징은 심리언어학 연구에서 재독 시 감소된 민감도와 연관된 바 있다. XGBoost 트리 부스팅을 이용해 분류기를 학습시켰으며, 교차 검증을 통해 과적합을 방지하였다.

신경망 기반 모델은 RoBERTa‑Eye(RoBERTa 기반에 눈 움직임 임베딩을 결합) 두 변형을 사용한다. Word‑level 버전은 각 단어마다 13차원 눈 움직임 특징을 추출해 단어 임베딩에 연결하고, Fixation‑level 버전은 고정마다 6차원 특징을 추가로 결합한다. 모델은 특수 토큰을 통해 텍스트와 눈 움직임 스트림을 구분하고, 다중 헤드 어텐션을 통해 두 정보 흐름을 상호 보완한다.

핵심적인 합성 스캔패스 보강 전략은 E‑Z Reader 모델을 이용해 각 텍스트에 대한 ‘전형적인 첫 번째 읽기’ 스캔패스를 생성하는 것이다. 생성된 합성 데이터는 인간 기록과 동일한 입력 포맷(전역·단어·고정 수준)으로 변환되어, 인간‑합성 쌍을 모델에 제공한다. 이때 인간‑합성 차이를 특징으로 포함하거나, 시퀀스 차원에서 합성 고정을 이어 붙이는 방식으로 두 데이터 소스를 동시에 학습한다. 실험 결과, 합성 스캔패스를 활용한 모델은 특히 Single Trial Task에서 정확도가 5~7%p 상승했으며, Paired Trial Task에서도 미세하지만 일관된 개선을 보였다.

성능 분석에서는 (1) 재독 간격(k)의 영향, (2) 텍스트 위치(초반 vs. 후반)별 정확도 차이, (3) 특정 눈 움직임 지표(예: 회귀 비율 감소)가 모델 예측에 기여하는 정도를 조사했다. 재독 간격이 길어질수록(비연속 재독) 모델의 구분력이 약해지는 경향이 있었지만, 여전히 60% 이상의 정확도를 유지했다. 또한, 고정 수와 스킵 비율 같은 전역 특징이 가장 높은 중요도를 보였으며, 단어‑레벨 특성 계수는 재독 시 민감도 감소를 반영해 보조적인 역할을 수행했다.

이 연구는 눈 움직임이 독자의 기억 상태를 반영한다는 가설을 실증적으로 뒷받침하며, 심리언어학적 현상을 머신러닝 기반 예측 모델에 직접 연결하는 방법론적 틀을 제공한다. 향후 e‑learning, 독서 보조 시스템, 혹은 개인화된 텍스트 추천 등에 적용 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기