시선 인식의 한계와 가능성 인간·AI 눈맞춤 연구

초록

본 논문은 자유롭게 머리와 눈을 움직이는 상황에서 사람과 컴퓨터 비전 모델이 3D 시선 방향을 판단하는 능력을 비교한다. 실험 결과, 인간은 8°~10° 정도 떨어진 물체를 구분하는 정확도가 약 40%이며, 피험자마다 큰 차이를 보였다. 제안된 모델은 이러한 변동성을 어느 정도 포착하지만 인간보다 현저히 낮은 성능을 보였다.

상세 분석

이 연구는 인간의 공동 주의(joint attention) 능력을 정량화하고, 이를 인지 과학적 모델과 최신 컴퓨터 비전 기법에 연결시키려는 시도이다. 실험 설계는 ‘자유 시선(free‑looking)’ 조건을 채택해 피험자가 머리와 눈을 제한 없이 움직일 수 있게 함으로써, 실제 생활에서의 시선 추론 문제를 최대한 현실적으로 재현했다. 시선 목표물은 시각각 8°~10° 간격으로 배치돼, 인간이 구분하기 어려운 미세 각도 차이를 제공한다. 결과적으로 인간 피험자들의 평균 정확도는 40% 수준에 머물렀으며, 이는 통계적으로 유의미한 차이를 보이는 수준이다. 특히 피험자 간 정확도 차이가 20% 이상으로 크게 나타나, 개인별 시선 해석 능력에 큰 이질성이 존재함을 확인했다.

컴퓨터 비전 모델은 2D 얼굴 이미지에서 3D 시선 벡터를 추정하도록 설계되었다. 기본 구조는 얼굴 정규화 후 헤드 포즈를 추정하고, 눈 영역을 별도로 처리해 눈동자 중심을 검출한 뒤, 이를 3D 공간으로 투영하는 다단계 CNN 파이프라인이다. 학습 데이터는 다양한 조명·포즈·시선 각도를 포함한 대규모 합성 이미지와 실제 촬영 데이터를 혼합해 구성했으며, 손실 함수는 헤드 포즈와 눈동자 위치의 회귀 오차를 동시에 최소화하도록 설계되었다.

모델의 성능은 인간보다 현저히 낮아, 동일한 8°~10° 각도 차이 구분에서 약 25% 수준의 정확도를 보였다. 흥미롭게도 모델이 특정 피험자(lookers)의 시선 패턴을 더 잘 예측하는 경우와 그렇지 않은 경우가 명확히 구분되었으며, 인간 피험자들의 변동성과 높은 상관관계를 보였다. 이는 모델이 인간의 시선 해석에 영향을 미치는 몇몇 시각적 단서를 포착하고 있음을 시사한다.

하지만 인간이 여전히 모델을 크게 앞서는 이유는, 인간이 얼굴 전체의 미세한 근육 움직임, 동공 크기 변화, 그리고 사회적 맥락까지 통합적으로 활용한다는 점이다. 현재 모델은 주로 정적인 이미지와 제한된 피처에 의존하므로, 동적 시선 변화와 맥락 정보를 반영하지 못한다. 또한, 인간 피험자들의 ‘시선 추론 전략’이 개인별로 크게 다르다는 점은, 모델이 학습해야 할 다변량 특성이 매우 복잡함을 의미한다.

결론적으로, 이 논문은 인간의 시선 해석 능력이 고차원 인지 메커니즘과 정교한 시각 처리 과정을 통해 이루어짐을 실험적으로 입증하고, 현재의 컴퓨터 비전 기술이 아직 그 복잡성을 충분히 모델링하지 못하고 있음을 강조한다. 향후 연구는 동적 영상, 다중 모달(예: 머리 움직임·음성·표정) 통합, 그리고 개인 맞춤형 학습 전략을 통해 인간과 모델 간 격차를 좁히는 방향으로 진행될 필요가 있다.