시선 기반 시각‑언어 모델로 보는 에고센트릭 행동 예측

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간의 시선(고정·휘두름) 정보를 직접 VLM(Vision‑Language Model)에 통합해, 에고센트릭 영상에서 현재 행동 이해와 미래 행동 예측을 동시에 향상시키는 프레임워크를 제안한다. 시선 기반 쿼리를 활용한 주의 메커니즘과 KL‑다이버전스 기반 시선 정규화를 통해 모델의 어텐션을 인간 시선 분포와 정렬시켰으며, Ego4D 데이터셋에 대한 실험에서 의미론적 점수가 기존 베이스라인 대비 약 13 % 상승함을 보였다.

상세 분석

이 연구는 에고센트릭 비디오 이해에 시선 정보를 어떻게 효과적으로 삽입할 수 있는지를 체계적으로 탐구한다. 먼저, 기존 VLM(예: Flamingo, CLIP 등)이 순수 RGB 프레임만을 입력으로 받아 텍스트를 생성한다는 한계를 지적하고, 인간의 시선이 의도와 목표를 반영한다는 인지과학적 근거를 제시한다. 논문은 두 가지 핵심 모듈을 설계한다. 첫 번째는 ‘시선 기반 쿼리(gaze‑based query)’로, VIT(Vision Transformer)에서 추출한 이미지 패치와 별도로 시선 히트맵을 결합해 쿼리 벡터 Q를 만든다. 이때 테스트 시점에 실제 시선 데이터가 없을 경우를 대비해, 학습 단계에서 히트맵을 예측하는 별도 모듈을 훈련시켜 pseudo‑gaze 이미지를 생성하도록 설계하였다. 두 번째는 ‘시선 정규화(gaze‑regularization) 블록’이다. 어텐션 가중치 A와 시선 분포 H 사이의 Kullback‑Leibler(KL) 다이버전스를 손실에 추가함으로써, 모델이 인간 시선이 집중된 영역에 더 높은 어텐션을 할당하도록 강제한다. 이 접근법은 단순히 시선 히트맵을 입력으로 사용해 중요한 시각 정보를 놓치는 문제를 회피한다.

데이터 측면에서는 Ego4D에서 제공하는 시선 트래킹 데이터를 활용해, 각 프레임에 대해 1초 간격으로 RGB 이미지와 대응하는 이진 히트맵을 생성하였다. 텍스트 라벨은 GPT‑4V를 이용해 자동 생성하고, 인간 검증을 거쳐 고품질의 세밀한 행동 설명을 확보했다. 모델 학습은 기존 Flamingo 구조의 비전 블록(VIT)과 Perceiver Resampler만을 미세조정하고, 언어 블록은 동결함으로써 비교적 적은 파라미터만으로도 시선 정보를 효과적으로 학습할 수 있었다.

실험 결과는 두 가지 태스크에서 모두 유의미한 개선을 보여준다. (1) 미래 행동 예측에서는 의미론적 메트릭(Metrics such as METEOR, CIDEr 등)에서 베이스라인 대비 평균 13 % 상승했으며, 특히 시선이 명확히 목표 객체를 가리키는 경우 정확도가 크게 향상되었다. (2) 현재 행동 이해에서는 2 % 정도의 점수 상승을 기록했는데, 이는 시선이 현재 진행 중인 동작의 핵심 객체를 강조함으로써 텍스트 생성의 구체성이 높아진 결과로 해석된다. 추가 실험에서는 세밀한 어노테이션을 사용했을 때 12 % 이상의 추가 이득을 확인했으며, 이는 시선 정보와 정밀 라벨이 상호 보완적으로 작용한다는 증거이다.

한계점으로는 시선 데이터가 없는 실시간 시스템에서 pseudo‑gaze 예측 정확도가 전체 성능에 큰 영향을 미칠 수 있다는 점, 그리고 히트맵을 1초 간격으로 다운샘플링함으로써 빠른 눈 움직임(스캔패턴)을 놓칠 가능성이 있다는 점을 언급한다. 향후 연구에서는 멀티‑모달 시계열 어텐션과 고해상도 시선 트래킹을 결합해, 더 긴 시간 창을 다루는 장기 예측 및 복합 행동 인식에 적용하는 방향을 제시한다.

전반적으로 이 논문은 인간 시선이라는 자연스러운 주의 메커니즘을 VLM에 정량적으로 삽입함으로써, 에고센트릭 비디오에서의 행동 이해와 예측을 크게 향상시킨 혁신적인 접근을 제시한다.

시선 기반 시각‑언어 모델로 보는 에고센트릭 행동 예측

초록

상세 분석

댓글 및 학술 토론

의견 남기기