스마트 안경을 위한 실시간 독서 인식 기술
초록
본 논문은 언제 사용자가 읽고 있는지를 실시간으로 판단하는 ‘독서 인식’ 과제를 정의하고, 100시간 규모의 다중모달 egocentric 데이터셋을 공개한다. RGB 영상, 눈동자 시선, 머리 자세(IMU) 세 가지 센서를 활용한 변형 가능한 트랜스포머 모델을 제안하여 각 모달리티별·통합 성능을 평가한다. 실험 결과, 시선 정보가 단독으로도 높은 정확도를 보이며, RGB와 IMU와 결합했을 때 상호 보완적으로 성능이 향상됨을 확인한다. 또한, 수집된 데이터셋을 이용해 독서 유형(깊게 읽기, 스키밍, 스캐닝 등) 및 매체(인쇄물, 디지털 화면 등) 분류까지 확장 가능함을 보여준다.
상세 분석
이 연구는 웨어러블 스마트 안경이 지속적으로 주변 상황을 파악하기 위해 ‘프록시 신호’가 필요하다는 전제에서 출발한다. 독서는 인간의 일상에서 가장 빈번하고 정보 밀도가 높은 활동이지만, 텍스트가 시야에 존재한다고 해서 사용자가 실제로 읽고 있다고 판단하기는 어렵다. 따라서 저자는 시선 데이터와 머리 자세, 그리고 제한된 시야의 RGB 영상을 결합해 독서 여부를 판단하는 새로운 과제를 정의한다. 데이터셋 구축 단계에서 두 개의 서브셋(시애틀·콜럼버스)을 설계했는데, 전자는 다양한 환경·인구통계·읽기 매체를 포괄해 모델 학습·검증에 사용하고, 후자는 ‘하드 네거티브’(텍스트가 보이지만 읽고 있지 않음)와 비영어 텍스트, 그리고 동일 환경에서의 읽기·비읽기 대조 실험을 통해 제로샷 일반화 한계를 탐색한다.
모델 설계는 기본 트랜스포머 인코더를 기반으로 하며, 각 모달리티를 독립적인 토큰 시퀀스로 인코딩한다. 시선 데이터는 60 Hz의 고주파 샘플링을 그대로 사용해 시계열 특징을 학습하고, RGB는 시선 중심 2° 시야를 크롭해 입력량을 크게 줄이며, IMU는 머리 움직임을 3축 가속·자이로 데이터로 제공한다. 이러한 설계는 웨어러블 디바이스의 연산·전력 제한을 고려한 ‘경량화’ 전략이다. 실험 결과, 시선 단독 모델이 약 85 % 이상의 F1 점수를 기록했으며, RGB와 결합했을 때 90 % 이상, 세 모달리티 모두 결합했을 때 최고 93 %의 정확도를 달성했다. 특히, 하드 네거티브 상황에서 RGB만 사용할 경우 오탐이 빈번했지만, 시선 정보가 이를 크게 억제한다는 점이 주목할 만하다.
데이터셋은 기존 egocentric 액티비티 데이터(eg. Ego4D, EGTEA)와 비교해 눈동자 샘플링 주파수, 독서 다양성, 하드 네거티브 포함 여부에서 현저히 우수하다. 또한, 독서 유형(깊게 읽기, 스키밍, 스캐닝, 소리 내어 읽기)과 매체(인쇄, 디지털, 라벨 등) 라벨을 제공해 인지과학·교육 분야 연구에도 활용 가능하도록 설계되었다. 저자는 자동 라벨링을 위해 음성 트리거(“start reading”, “finished reading”)와 WhisperX 기반 전사 시스템을 도입해 라벨링 비용을 크게 절감했으며, 사전·사후 질문을 통한 품질 검증 절차도 마련했다.
전체적으로 이 논문은 스마트 안경과 같은 항상 켜져 있는 웨어러블 디바이스가 실시간으로 사용자의 독서 상황을 감지하고, 필요 시 고비용 OCR·VLM 모델을 호출하도록 하는 효율적인 파이프라인을 제시한다. 시선 기반의 경량 모델이 높은 정확도를 보이며, 멀티모달 결합을 통해 다양한 환경에서도 견고하게 동작한다는 점은 향후 실용적인 AR/VR 인터페이스 개발에 큰 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기