실시간 스트리밍의 동적 콘텐츠 모더레이션: 감독 학습 분류와 MLLM 강화 유사성 매칭 결합

초록

콘텐츠 모더레이션은 대규모 사용자 생성 비디오 플랫폼에서 특히 실시간 스트리밍 환경에서는 시의적절하고 다중모달하며 진화하는 형태의 원치 않는 콘텐츠에 강건해야 하는 중요한 과제입니다. 우리는 알려진 위반 사항을 위한 감독 학습 분류와 새로운 또는 미묘한 경우를 위한 참조 기반 유사성 매칭을 결합한 하이브리드 모더레이션 프레임워크를 제시합니다. 이 하이브리드 설계는 명확한 위반 사항과 전통적인 분류기에 의해 피하는 새로운 경계 사례의 강력한 탐지를 가능하게 합니다. 텍스트, 오디오, 시각적 입력은 두 파이프라인을 통해 처리되며, 다중모달 대형 언어 모델(MLLM)은 각 파이프라인에 지식을 추출하여 정확도를 높이는 동시에 추론을 가볍게 유지합니다. 실제 운영에서 분류 파이프라인은 80%의 정밀도에서 67%의 재현율을 달성하고, 유사성 파이프라인은 80%의 정밀도에서 76%의 재현율을 달성합니다. 대규모 A/B 테스트는 사용자의 원치 않는 실시간 스트리밍 시청을 6-8% 줄이는 것을 보여줍니다. 이러한 결과는 명확한 위반 사항과 출현하는 적대적 행동 양상에 대응할 수 있는 확장 가능하고 적응 가능한 다중모달 콘텐츠 통제 접근 방식을 입증합니다.

상세 요약

이 논문은 실시간 스트리밍 환경에서의 콘텐츠 모더레이션 문제를 해결하기 위해 제안된 하이브리드 프레임워크에 초점을 맞추고 있습니다. 이 프레임워크는 알려진 위반 사항을 감지하는 데 사용되는 감독 학습 분류와 새로운 또는 미묘한 콘텐츠를 탐지하기 위한 참조 기반 유사성 매칭을 결합하고 있습니다. 이러한 접근 방식은 전통적인 분류기에 의해 피할 수 있는 새로운 경계 사례의 강력한 탐지를 가능하게 하며, 이는 실시간 환경에서 특히 중요합니다.

논문에서는 다중모달 입력(텍스트, 오디오, 시각적)을 처리하는 두 개의 파이프라인에 대해 설명하고 있습니다. 각 파이프라인은 MLLM(Multimodal Large Language Model)을 통해 지식을 추출하여 정확도를 높이는 동시에 추론 과정을 가볍게 유지합니다. 이는 실시간 환경에서의 모더레이션 작업에 있어 중요한 요소로, 시스템이 신속하게 반응할 수 있도록 합니다.

실제 운영에서 분류 파이프라인은 80%의 정밀도에서 67%의 재현율을 달성하고, 유사성 파이프라인은 같은 조건에서 76%의 재현율을 보입니다. 이러한 성능 지표는 제안된 접근 방식이 실시간 환경에서 효과적으로 작동할 수 있음을 입증합니다.

대규모 A/B 테스트를 통해 사용자의 원치 않는 스트리밍 시청이 6-8% 감소하는 것을 확인하였습니다. 이 결과는 제안된 프레임워크가 실제 운영 환경에서도 유용함을 보여주며, 특히 실시간 환경에서의 모더레이션 작업에 있어 중요한 의미를 갖습니다.

초록

상세 요약

📜 논문 원문 (영문)