실시간 스트리밍 콘텐츠 중재 감독 학습 분류와 MLLM 기반 유사도 매칭의 결합
📝 원문 정보
- Title: Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
- ArXiv ID: 2512.03553
- 발행일: 2025-12-03
- 저자: Wei Chee Yew, Hailun Xu, Sanjay Saha, Xiaotian Fan, Hiok Hian Ong, David Yuchen Wang, Kanchan Sarkar, Zhenheng Yang, Danhui Guan
📝 초록 (Abstract)
콘텐츠 중재는 대규모 사용자 생성 비디오 플랫폼, 특히 실시간 스트리밍 환경에서 시의적절하고 다중모달이며 진화하는 불쾌 콘텐츠에 대응해야 하는 중요한 과제이다. 본 논문에서는 알려진 위반 사례를 탐지하는 감독 학습 분류와 새로운 혹은 미묘한 사례를 찾아내는 레퍼런스 기반 유사도 매칭을 결합한 하이브리드 중재 프레임워크를 제시한다. 이 설계는 명시적 위반과 기존 분류기로는 포착하기 어려운 최신 변형을 모두 검출할 수 있게 한다. 텍스트·음성·영상 등 다중모달 입력을 두 파이프라인에 동시에 적용하고, 다중모달 대형 언어 모델(MLLM)이 각 파이프라인에 지식을 증류하여 정확도를 높이면서 추론 비용은 경량화한다. 실제 서비스에서 분류 파이프라인은 정밀도 80%에서 재현율 67%를, 유사도 파이프라인은 정밀도 80%에서 재현율 76%를 달성하였다. 대규모 A/B 테스트 결과, 원치 않는 실시간 스트리밍 시청량이 6~8% 감소하였다. 이 결과는 명시적 위반과 새로운 적대적 행태 모두를 다룰 수 있는 확장 가능하고 적응력 있는 다중모달 콘텐츠 거버넌스 접근법의 실효성을 입증한다.💡 논문 핵심 해설 (Deep Analysis)

이를 위해 저자들은 두 개의 병렬 파이프라인을 설계하였다. 감독 학습 분류 파이프라인은 기존에 라벨링된 위반 사례를 이용해 다중모달 특징을 학습하고, 빠른 추론을 위해 경량화된 모델 구조를 채택한다. 반면, 레퍼런스 기반 유사도 매칭 파이프라인은 사전 정의된 “레퍼런스 클립” 혹은 “레퍼런스 텍스트”와 실시간 스트리밍 데이터를 비교하여, 기존 분류기가 놓칠 수 있는 미세하거나 새로운 변형을 탐지한다. 여기서 핵심은 MLLM(다중모달 대형 언어 모델)이 두 파이프라인에 지식을 증류한다는 점이다. MLLM은 대규모 사전 학습을 통해 다양한 모달 간의 의미적 연관성을 파악하고, 이를 작은 모델에 컨텍스트‑어텐션 형태로 전달한다. 결과적으로 경량 모델은 MLLM 수준의 풍부한 표현력을 유지하면서도 실시간 추론 비용을 크게 낮출 수 있다.
성능 측면에서 논문은 두 파이프라인 모두 정밀도 80%라는 동일한 기준 하에 재현율이 67%와 76%로 차이를 보인다. 이는 기존 분류기가 높은 정밀도를 유지하면서도 놓치는 사례를 유사도 매칭이 보완한다는 것을 의미한다. 특히 유사도 매칭이 재현율이 더 높은 이유는 레퍼런스 집합이 지속적으로 업데이트될 수 있어, 새로운 위반 패턴에 대한 “Zero‑Shot” 탐지가 가능하기 때문이다.
A/B 테스트 결과 6~8%의 시청 감소는 실제 사용자 경험에 긍정적인 영향을 미쳤음을 보여준다. 다만, 몇 가지 한계점도 존재한다. 첫째, 레퍼런스 기반 매칭은 레퍼런스 데이터베이스의 품질과 규모에 크게 의존한다. 레퍼런스가 부족하거나 오래되면 최신 변형을 놓칠 위험이 있다. 둘째, MLLM 증류 과정에서 발생할 수 있는 “지식 손실”이 경량 모델의 판단 오류로 이어질 가능성이 있다. 셋째, 실시간 스트리밍 특성상 연산 자원이 제한된 상황에서 두 파이프라인을 동시에 운영하는 비용 효율성에 대한 상세한 비용‑효과 분석이 부족하다.
향후 연구 방향으로는 (1) 레퍼런스 자동 생성 및 업데이트 메커니즘을 강화해 지속적인 적응성을 확보하고, (2) 증류 과정에서 교차‑모달 정규화 기법을 도입해 지식 손실을 최소화하며, (3) 비용‑효율성을 고려한 동적 파이프라인 스케줄링을 설계해 리소스 사용을 최적화하는 것이 제안된다. 전체적으로 이 연구는 실시간, 다중모달, 그리고 지속적으로 변하는 위협 환경에 대응할 수 있는 실용적인 프레임워크를 제공한다는 점에서 큰 의의를 가진다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리