눈동자와 감정의 연결고리: DenseNet 기반 사용자 상태 예측
초록
본 논문은 눈동자 움직임의 속도 신호를 입력으로, DenseNet 기반 딥러닝 회귀 모델을 이용해 피로·노력·과제 난이도 등 주관적 자기보고 점수를 예측한다. 9차례에 걸친 장기 GazeBase 데이터셋을 활용해 라운드 간 일반화와 피험자 간 일반화를 평가했으며, 기존 평균 기반 베이스라인보다 MAE 감소와 정확도 향상을 달성하였다.
상세 분석
이 연구는 눈동자 추적 데이터에서 직접 추출한 연속적인 속도 시퀀스를 활용한다는 점에서 기존의 손수 설계된 특징(예: 고정시간, 사카도, 스퀴즈 등) 기반 접근법과 차별화된다. 전처리 단계에서는 1000 Hz 샘플을 100 Hz로 다운샘플링하고, Savitzky‑Golay 미분 필터로 위치 → 속도 변환 후, 클리핑·정규화·사인 변환을 거쳐 ‑1~1 구간에 매핑한다. 이렇게 정규화된 1‑D 시계열을 50 초(5000 샘플) 길이로 고정함으로써 모델 입력 차원을 일정하게 유지한다.
핵심 모델은 Pre‑activation DenseNet 구조를 채택한다. 각 Dense Block은 32개의 성장률(growth rate)로 8개의 1‑D 컨볼루션 레이어를 쌓으며, dilation rate를 2ⁿ⁻¹ (mod 7) 로 점진적으로 확대해 수용 영역을 257 타임스텝까지 확장한다. BN‑ReLU‑Conv 순서를 사용해 학습 안정성을 높였으며, 마지막 레이어 뒤에 Global Average Pooling을 두어 시계열 전체를 하나의 임베딩 벡터로 압축한다. 이 임베딩은 Fully Connected 레이어와 Dropout‑ReLU‑FC 헤드를 거쳐 다중 목표(3 점 또는 6 점) 회귀값을 출력한다. 손실 함수는 Smooth L1(Huber)로, 이상치에 대한 민감도를 낮추면서도 MSE와 MAE의 장점을 절충한다.
실험 설계는 두 축으로 나뉜다. 첫 번째는 “cross‑round” 일반화로, 동일 피험자의 이전 라운드(예: 라운드 2)에서 학습한 모델을 이후 라운드(라운드 3·4)에서 테스트한다. 이는 시간에 따른 개인 내 변동성을 포착할 수 있는지를 평가한다. 두 번째는 “cross‑subject” 일반화로, 라운드 1·2에 포함된 피험자들로 학습하고, 라운드 1·2에 겹치지 않는 피험자들에 대해 예측한다. 이는 모델이 개인 차이를 넘어 일반적인 눈동자‑주관성 매핑을 학습했는지를 검증한다.
성능 평가는 MAE, RMSE, Pearson r, R², 그리고 1‑7 스케일을 정수로 반올림한 “Exact Accuracy”를 사용한다. 결과적으로 DenseNet 모델은 전역 평균 베이스라인 대비 MAE를 약 0.140.18 감소시키고, 정확도는 0.22에서 0.60 이상으로 크게 상승시켰다. 특히 cross‑round 실험에서 라운드 3·4 모두 r≈0.550.60, R²≈0.30~0.35 수준을 기록해, 시계열 특징이 주관적 피로·노력 점수와 유의한 선형 관계를 가짐을 보여준다.
한계점으로는 (1) 라벨이 1‑7 이산형이지만 회귀 손실을 사용해 연속값을 예측함으로써 스케일링 오류가 발생할 가능성, (2) 데이터가 주로 실험실 환경(eye‑link 1000)에서 수집돼 실제 모바일/AR 디바이스에 바로 적용하기 어려움, (3) 모델이 50 초 고정 길이에 의존해 짧은 인터랙션이나 실시간 추론에 대한 평가가 부족하다는 점을 들 수 있다. 향후 연구에서는 라벨을 순서형 분류로 재구성하거나, 변동 길이 시퀀스에 맞는 Temporal Convolutional Network·Transformer 기반 모델을 탐색하고, 멀티모달(동공 직경·얼굴 표정) 정보를 결합해 예측 정확도를 더욱 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기