스트림센스 실시간 사회 과제 탐지를 위한 선택적 비전언어 모델 라우팅
초록
스트림센스는 경량 스트리밍 인코더와 고성능 비전‑언어 모델(VLM)을 선택적으로 연결해 실시간 라이브 스트림에서 감정·혐오 등 사회적 신호를 감지한다. 인코더가 대부분의 타임스탬프를 처리하고, 어려운 경우에만 VLM을 호출하며, 증거가 부족할 때는 판단을 연기한다. 교차‑모달 대조 학습과 IoU 가중 손실을 통해 라벨 간 간섭을 완화하고, 평균 지연과 연산량을 크게 줄이면서 정확도를 높인다.
상세 분석
스트림센스는 실시간 스트리밍 환경에서 사회적 과제(SSTD)를 해결하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 경량 스트리밍 인코더는 영상, 텍스트, 오디오를 과거 윈도우만 사용해 빠르게 특징을 추출한다. 이 인코더는 멀티모달 교차‑대조 손실을 통해 시각·청각·언어 신호를 정렬하고, 각 모달리티가 서로 보완하도록 학습한다. 둘째, 라우터는 인코더 출력에 기반해 현재 프레임이 ‘예측 가능’, ‘불확실’, ‘고난도’ 중 어느 상태인지 판단한다. ‘예측 가능’이면 바로 라벨을 출력하고, ‘고난도’이면 사전 학습된 대규모 비전‑언어 모델(VLM)에게 에스컬레이션한다. VLM은 풍부한 사전 지식과 복합적인 언어 이해 능력으로 미묘한 혐오 표현이나 감정 변화를 포착한다. 셋째, ‘불확실’ 상황에서는 판단을 연기(deferral)하고 다음 윈도우를 기다린다. 이는 스트리밍 특성상 증거가 비동기적으로 도착하는 문제를 완화한다. 학습 단계에서는 기존 데이터셋이 제공하는 구간 레벨 라벨을 프레임 수준으로 전파하면서 발생하는 라벨 간 충돌을 방지하기 위해 IoU‑가중 교차 엔트로피 손실을 도입한다. 즉, 목표 구간과 겹치는 정도가 낮은 프레임에 대한 손실 가중치를 감소시켜 경계 근처의 모순된 학습 신호를 억제한다. 실험에서는 감정 분류와 혐오 콘텐츠 검출 두 가지 대표적인 사회적 과제에 대해, VLM만 사용한 베이스라인 대비 정확도와 매크로‑F1 점수가 향상되었으며, VLM 호출 비율은 10% 이하로 감소해 평균 지연이 크게 줄었다. 전체 시스템은 라우팅 정책과 deferral 메커니즘이 실시간 요구사항을 만족하면서도 고성능을 유지할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기