실시간 모바일 어시스턴트를 위한 스트리밍 벤치마크 PhoStream
초록
PhoStream은 모바일 환경에서 온스크린·오프스크린 영상을 연속 스트리밍 형태로 처리하는 멀티모달 LLM을 평가하기 위해 만든 최초의 벤치마크이다. 578개의 13.3분 평균 길이 영상에서 5,572개의 개방형 QA를 4가지 시나리오와 10가지 능력으로 구성했으며, 질문을 Instant·Backward·Forward 세 종류로 구분해 “언제 말해야 하는가”라는 시점 판단 능력을 중점적으로 측정한다. 실험 결과 최신 모델(Gemini 3 Pro 등)은 Instant·Backward에서는 80점 이상을 받지만 Forward에서는 16점 수준에 머물며, 대부분 조기 응답(Early Response) 오류를 범한다.
상세 분석
PhoStream은 기존 비디오 QA 벤치마크와 달리 모바일 사용자를 대상으로 하는 실시간 스트리밍 상황을 정밀하게 재현한다는 점에서 혁신적이다. 첫째, 데이터 수집 단계에서 YouTube Vlog, Phone Tutorial, Phone Record, EgoBlind 등 네 가지 시나리오를 골고루 포함해 온스크린(앱 UI)과 오프스크린(일상 영상) 모두를 아우른다. 특히 평균 영상 길이가 13.3분으로, 기존 Benchmark(예: StreamingBench 9.7분, ProactiveVideoQA 2.1분)보다 훨씬 길어 장기 컨텍스트 유지 능력을 테스트한다. 둘째, 질문 유형을 Instant(즉시 답변 가능), Backward(과거 정보만 사용), Forward(미래에 나타날 증거를 기다려야 함)로 구분함으로써 “무엇을 말할까”뿐 아니라 “언제 말할까”라는 시점 판단 문제를 명시적으로 제시한다. Forward 질문은 특히 모델이 답변을 미루는 능력을 요구하는데, 이는 실제 모바일 어시스턴트가 사용자의 의도에 맞춰 적절한 타이밍에 반응해야 하는 상황과 일치한다.
데이터 라벨링 파이프라인도 주목할 만하다. 초기 QA 생성은 Gemini 3 Pro를 활용해 자동으로 질문·답변·타임스탬프를 생성하고, 자체 검증 절차를 거친 뒤 10명의 인간 전문가가 두 차례 리뷰하여 오류를 정제한다. 이 과정은 대규모 데이터 구축 비용을 크게 낮추면서도 높은 품질을 확보한다는 장점을 제공한다.
평가 프로토콜은 1초 간격으로 스트리밍 프레임을 업데이트하고, 각 질문이 제시된 타임스탬프에 한 번만 질의를 전달한다. 모델은 즉시 답변하거나, 증거가 충분히 축적될 때까지 대기할 수 있다. 조기 응답이나 무응답은 0점 처리해 시점 판단 오류를 명확히 드러낸다. 점수는 LLM-as-a-Judge 방식을 사용해 0~100 점 스케일로 정량화했으며, 인간 평가자와의 상관관계가 높은 것으로 보고된다.
실험 결과, Gemini 3 Pro와 Qwen3‑Omni 같은 최신 상용·오픈소스 모델은 Instant·Backward에서는 80점대(특히 Gemini 3 Pro는 84점)까지 높은 성능을 보였지만, Forward에서는 16.40점에 불과했다. 특히 Gemini 3 Pro는 Forward 질문의 79.12%에서 조기 응답을, Qwen3‑Omni는 97.89%에서 조기 응답을 보여, 모델이 미래 증거를 기다리는 “인내” 능력이 현저히 부족함을 확인했다. 이는 현재 MLLM이 시각·청각 인식은 뛰어나지만, 실시간 인터랙션에서 적절한 응답 시점을 판단하는 메커니즘이 미비함을 의미한다.
또한, PhoStream은 질문 밀도(평균 9.6 질문/비디오)와 높은 질문 간 의존성을 제공해, 모델이 장기 메모리 관리와 컨텍스트 통합을 어떻게 수행하는지 세밀히 분석할 수 있다. 향후 연구에서는 조기 응답을 억제하고, 필요 시 대기·재질문 전략을 학습시키는 강화학습 기반 정책이나, 타임스탬프 기반의 “답변 시점 예측” 모듈을 도입하는 방향이 제시된다.
요약하면, PhoStream은 모바일 스트리밍 상황에서 멀티모달 LLM의 시점 판단 능력을 체계적으로 측정할 수 있는 최초의 공개 벤치마크이며, 현재 모델들의 근본적인 한계를 드러내는 중요한 진단 도구이다.
댓글 및 학술 토론
Loading comments...
의견 남기기