VK 대규모 짧은 동영상 추천 데이터셋
초록
본 논문은 6개월 동안 수집된 40 억 건 이상의 사용자‑동영상 상호작용을 포함하는 VK‑LSVD 데이터를 공개한다. 1천만 명의 사용자와 2천만 개의 동영상에 대한 시청 시간, 좋아요·싫어요·공유·북마크 등 다양한 암묵·명시 피드백과 컨텍스트 메타데이터가 제공된다. 데이터는 전역 시간 분할을 적용해 학습·검증·테스트를 명확히 구분하고, 64차원 콘텐츠 임베딩을 포함한다. 논문은 데이터 품질 검증, 간단한 베이스라인 실험, 그리고 VK RecSys Challenge 2025에서의 활용 사례를 제시한다.
상세 분석
VK‑LSVD는 기존 짧은 동영상 공개 데이터셋과 비교했을 때 규모와 다양성에서 현저히 앞선다. 40 억 건 이상의 인터랙션은 데이터 밀도가 0.0208 %에 불과하지만, 이는 실제 서비스 환경에서 흔히 관찰되는 파워‑유저와 롱테일 아이템의 파워‑법칙을 그대로 반영한다. 사용자 메타데이터는 연령, 성별, 거주지(80개 구역) 등 인구통계 정보를 제공하며, 이는 편향·공정성 연구에 활용될 수 있다. 아이템 메타데이터는 저자 ID, 동영상 길이(초 단위)와 함께 64‑차원 콘텐츠 임베딩을 제공한다. 임베딩은 사전 학습된 모델을 SVD로 차원 축소한 것으로, 차원별 중요도가 보존돼 필요에 따라 차원을 조절할 수 있다.
데이터 구조는 주간 Parquet 파일 형태로 저장돼 순차적 접근이 용이하고, 전역 시간 분할(Global Temporal Split)을 적용해 학습(첫 25주), 검증(1주), 테스트(1주)로 명확히 구분한다. 이는 시계열 기반 시퀀스 모델, 특히 사용자 선호도의 급격한 변화를 포착해야 하는 짧은 동영상 추천에 필수적이다. 또한, 각 인터랙션은 ‘watch time’(최대 255 초)과 누적 시청 시간을 모두 기록해 재시청 행동까지 포착한다.
베이스라인 실험에서는 Random, Global Popularity, Conversion 기반 모델, iALS(Implicit ALS)를 평가했으며, iALS가 NDCG@20에서 0.0655(랜덤 분할)까지 도달해 암묵 피드백 활용의 가능성을 보여준다. 특히, iALS를 학습할 때 긍정 인터랙션을 ‘좋아요·댓글 열기·공유·북마크·시청 시간>10 초’로 정의하고, 부정 피드백(싫어요)을 제외함으로써 실제 서비스에서의 긍정 신호와 부정 신호를 구분하는 방법론을 제시한다.
데이터 품질 검증에서는 사용자·아이템 간 코사인 유사도를 iALS 잠재 요인으로 측정했다. 연령·성별·지역에 따라 사용자 유사도가 크게 달라짐을 확인했으며, 저자 ID와 동영상 길이, 임베딩 기반 클러스터링을 통한 아이템 유사도 역시 높은 상관관계를 보였다. 이는 데이터가 실제 콘텐츠와 사용자 특성을 잘 반영하고 있음을 의미한다.
VK RecSys Challenge 2025에서는 ‘신규 아이템에 대한 사용자 매칭’이라는 비표준 과제를 제시해, 콜드‑스타트 상황에서 사용자‑아이템 매칭 모델을 평가한다. 참가자는 각 신규 동영상에 대해 상위 100명의 사용자를 예측해야 하며, NDCG@100을 주요 지표로 사용한다. 이 대회는 데이터의 실용성을 입증하고, 향후 연구 커뮤니티에 벤치마크를 제공한다.
윤리적 측면에서 모든 식별자는 일방향 해시를 통해 익명화되었으며, 원본 영상·텍스트·오디오 데이터는 제공되지 않는다. 임베딩은 원본 콘텐츠를 복원할 수 없도록 설계돼 개인정보 보호와 저작권 문제를 최소화한다. 데이터는 Apache License 2.0 하에 공개돼 학술·산업 모두에서 자유롭게 활용 가능하다.
종합적으로 VK‑LSVD는 대규모 시퀀스 데이터, 풍부한 멀티모달 피드백, 상세한 컨텍스트 메타데이터를 동시에 제공함으로써, 기존 데이터셋이 갖는 ‘규모 부족’, ‘피드백 단일성’, ‘콘텐츠 부재’ 문제를 해결한다. 이는 차세대 짧은 동영상 추천 시스템, 특히 시계열 기반 사용자 모델링, 콜드‑스타트 아이템 처리, 그리고 공정성·편향 분석 연구에 중요한 기반이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기