실시간 얼굴‑대면 질문‑응답을 위한 새로운 비디오 데이터셋과 모델 평가
초록
본 논문은 카메라와 마이크를 이용해 실시간으로 사용자와 대화하는 AI 모델을 평가하기 위해 Qualcomm Interactive Video Dataset(QIVD)를 제시한다. QIVD는 2,900개의 짧은 동영상과 그에 대응하는 음성 질문·텍스트 답변·답변 시점 타임스탬프를 포함한다. 기존 대형 멀티모달 모델을 그대로 적용하면 인간 수준에 크게 못 미치며, 주요 오류 원인은 실시간 시각·청각 통합, 발화 시점 판단, 상황 상식 부족이다. 그러나 동일 데이터로 파인튜닝하면 여러 인지 능력이 크게 향상됨을 실험을 통해 보여준다.
상세 분석
QIVD는 “질문‑답변‑시점”이라는 3중 구조를 갖는 최초의 실시간 얼굴‑대면 VQA 벤치마크이다. 데이터 수집 단계에서 크라우드워커가 스마트폰·노트북으로 직접 영상을 촬영하고, 촬영 중에 질문을 음성으로 제시하도록 설계했으며, 답변이 가능한 최적 시점을 인간이 직접 타임스탬프한다. 이 과정은 질문이 아직 완전히 답변될 정보를 포함하지 않을 수 있음을 반영해, 모델이 시간 흐름을 추적하고 적절한 시점에 응답해야 함을 강제한다.
데이터는 13개의 의미 카테고리(행동 인식, 객체 카운팅, 지시 표현 등)와 5가지 질문 유형(what, how, where 등)으로 라벨링돼, 세부 능력별 성능 분석이 가능하도록 구성됐다. 평균 영상 길이는 5.1초, 프레임 레이트 30 fps, 해상도 640×382로 실시간 스트리밍 환경을 그대로 재현한다.
실험에서는 GPT‑4o, LLaVA‑1.5, Video‑LLM‑online 등 최신 공개 모델을 그대로 적용했을 때 전체 정확도가 30 % 이하로, 인간 평균(≈92 %)과 큰 격차를 보였다. 오류 분석 결과는 크게 세 축으로 요약된다. 첫째, 시각·청각 정보를 동시 처리해 질문의 의미를 해석하는 멀티모달 융합 능력이 부족하다. 둘째, “언제 말해야 하는가”라는 타이밍 판단이 결여돼, 질문 직후 혹은 영상 종료 시점에 무조건 답변하는 경향이 있다. 셋째, 상황 상식이나 일상적인 물리 법칙을 요구하는 질문에 대해 전혀 추론하지 못한다.
이러한 한계를 극복하기 위해 QIVD 전체를 5 epoch 정도 파인튜닝한 결과, 평균 정확도가 55 %까지 상승했으며, 특히 행동 카운팅·객체 참조·지시 표현 영역에서 15 ~ 20 %p의 개선을 보였다. 파인튜닝이 효과적인 이유는 (1) 실시간 스트리밍 특성을 반영한 시계열 입력 포맷, (2) 답변 시점 타임스탬프를 활용한 “언제 답변할지” 학습, (3) 다양한 상황 상식을 포함한 질문‑답변 쌍이 모델에 직접적인 지도 신호를 제공하기 때문이다.
하지만 파인튜닝 후에도 여전히 80 % 이하의 정확도에 머무르며, 특히 복합적인 청각‑시각 연관성(예: “소리가 나는 물체는 무엇인가?”)과 주관적 판단(예: “이 요리는 맛있어 보이나?”)에 약점이 남아 있다. 또한 현재 실험은 오프라인 배치 처리 기반 파인튜닝에 국한돼, 진정한 스트리밍 추론(프레임‑단위 지연 최소화)에서는 아직 검증되지 않았다.
결론적으로 QIVD는 실시간 인간‑AI 인터랙션을 평가·향상시키기 위한 중요한 발판이며, 향후 연구는 (1) 저지연 스트리밍 아키텍처, (2) 멀티모달 시계열 어텐션, (3) 상황 상식 및 일반 지식 통합을 위한 외부 지식베이스 연계 등에 초점을 맞춰야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기