발표 중 눈맞춤을 돕는 실시간 웨어러블 어시스턴트

발표 중 눈맞춤을 돕는 실시간 웨어러블 어시스턴트
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 헤드마운트형 눈추적기를 이용해 발표자의 시선 분포를 실시간으로 분석하고, 청중에게 눈맞춤을 유도하는 음성 프롬프트를 제공하는 Wearable 시스템 SpeakAssis를 제안한다. 사용자 실험 결과, 시스템 사용 시 눈맞춤 시간은 평균 62.5% 증가했으며, 청중의 몰입도와 상호작용 인식도 유의하게 향상되었다.

상세 분석

SpeakAssis는 현재 공개된 눈추적 기반 발표 보조기술 중 최초로 ‘실시간·현장(in‑situ)’ 피드백을 제공한다는 점에서 학술적·실용적 의의가 크다. 시스템은 Pupil Core와 같은 상용 헤드마운트 눈추적기의 전방 장면 카메라와 근접 눈 카메라를 활용해 120 Hz의 고속 눈동자 데이터를 수집하고, 1280 × 720 해상도의 장면 영상을 동시에 기록한다. 핵심 알고리즘은 두 단계로 구성된다. 첫 번째는 발표 전 ‘청중 등록’ 단계에서 장면 영상을 스캔해 얼굴을 검출하고, 좌우 위치 기반으로 고유 식별자와 얼굴 템플릿을 할당한다. 두 번째는 발표 중 실시간으로 프레임마다 얼굴 검출과 ‘앵커(face anchor)’ 기반 상대 위치 추론을 수행한다. 즉, 한 명의 ‘앵커’를 기준으로 다른 얼굴들의 상대 좌표를 계산해 대상(face target)을 빠르게 식별한다. 이 방식은 전통적인 개별 얼굴 인식보다 연산량이 적고, 조명 변화·부분 가림 등 실환경 변동에 강인성을 제공한다.

시선 분포 분석에서는 청중 영역과 비청중 영역(노트북, 천장 등)을 미리 정의하고, 일정 시간 창(window) 내에서 청중에 대한 시선 비율과 각 구역별 시선 횟수를 통계한다. 시스템은 두 가지 비효율 패턴을 감지한다. ① ‘눈맞춤 부족’ – 전체 시선 중 청중을 향한 비율이 사전에 설정한 임계값(예: 20 %) 이하일 경우 “청중을 바라보세요”라는 프롬프트를 전송한다. ② ‘불균형 시선’ – 특정 구역(예: 좌측·우측, 전방·후방)의 시선 비율이 전체 평균보다 현저히 낮을 경우 “오른쪽 청중을 보세요”와 같이 구역을 지정한 음성 피드백을 제공한다. 프롬프트는 블루투스 이어폰을 통해 은밀히 전달되며, 발표 흐름을 방해하지 않도록 1 초 이내에 짧은 문구로 구성된다.

실험 설계는 8명의 발표자와 24명의 청중(각 발표당 3명)으로 구성된 2‑시간 내외의 현장 발표 세션을 포함한다. 대조군(피드백 없음)과 실험군(SpeakAssis 사용) 간의 눈맞춤 시간, 시선 분포 균형도, 청중 설문(몰입도·상호작용 인식) 등을 비교하였다. 통계적으로 유의미한 차이가 관찰되었으며, 특히 눈맞춤 시간 증가율(62.5 %)와 청중의 ‘관심도’ 점수 상승이 두드러졌다.

기술적 한계로는 얼굴 인식 정확도가 청중 수가 많아질수록 감소하고, 동적 움직임(청중이 자리 이동) 시 재등록이 필요하다는 점을 언급한다. 또한, 음성 프롬프트가 과도하게 빈번할 경우 발표자의 인지 부하가 증가할 가능성도 제시한다. 향후 연구에서는 시선 기반 자동 슬라이드 전환, AR 디스플레이를 통한 시각적 피드백, 그리고 멀티모달(음성·제스처) 보조 체계로 확장할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기