연속 감정 특징으로 보는 유튜브 영상 사용자 참여 예측

연속 감정 특징으로 보는 유튜브 영상 사용자 참여 예측
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 600시간 분량의 연속적인 arousal, valence, trustworthiness 감정 라벨이 부착된 유튜브 리뷰 영상을 활용해, 감정 신호에서 추출한 통계·시계열 특징이 조회수, 좋아요·싫어요 비율, 댓글 수·감성 등 다양한 참여 지표와 어떻게 연관되는지를 분석한다. arousal 변동 폭이 작고 안정적인 구간이 많을수록, valence 피크 수가 많을수록, trustworthiness의 절대 에너지가 클수록 참여도가 높아지는 것을 확인했으며, 선택된 소수 특징만을 이용한 회귀 모델이 전체 특징을 사용할 때보다 MAE가 1.55→1.23 Lp/d(일일 평균 좋아요)로 향상됨을 보여준다.

상세 분석

본 논문은 감정·신뢰성이라는 연속적인 정서 차원을 메타데이터와 결합해 사용자 참여를 정량적으로 예측하려는 시도로, 기존 연구와 차별화되는 두 가지 핵심 기여를 제시한다. 첫째, 기존 유튜브 데이터셋은 주로 이산 감정 라벨(예: 6가지 기본 감정)이나 텍스트·음성·영상 특징에 의존했지만, 저자들은 MUSE‑CAR 데이터셋에 포함된 arousal, valence, trustworthiness 3차원 연속 라벨을 5명의 annotator가 0.25 Hz로 기록한 600시간 규모의 시계열 데이터를 활용한다. 라벨은 Evaluator Weighted Estimator(EWE) 방식을 통해 신뢰도 가중 평균을 구해 ‘gold‑standard’ 신호로 융합했으며, z‑표준화 후 다양한 통계·시계열 특징을 추출한다. 특징 추출은 기본적인 표준편차, 사분위수 외에도 ‘count below mean’, ‘number of peaks’, ‘absolute energy’ 등 감정 동역학을 포착할 수 있는 지표를 포함한다.

둘째, 이러한 감정 특징을 기반으로 사용자 참여 지표(조회수 Vp/d, 좋아요 Lp/d, 싫어요 Dp/d, 댓글 Cp/d, 댓글 좋아요 LCp/d)를 회귀 문제로 설정하고, 선형 커널을 갖는 Support Vector Regressor(SVR)를 사용해 예측한다. 특징 선택 단계에서는 (i) 반자동(cross‑task) 방식과 (ii) 완전 자동(특정 과제에 최적화된) 방식 두 가지를 적용했으며, 두 방법 모두 전체 특징을 사용할 때보다 MAE가 현저히 감소한다. 특히, valence의 ‘peak count’와 trustworthiness의 ‘absolute energy’가 Lp/d 예측에 가장 큰 기여를 했으며, arousal의 ‘boundary range’와 ‘fluctuation amplitude’는 참여 감소와 양의 상관관계를 보였다.

통계적 검증에서는 p < 0.05 수준의 유의미한 상관관계를 다수 확인했으며, 감정 차원별로 서로 다른 패턴이 참여와 연결된다는 점을 강조한다. 예를 들어, arousal가 낮은 구간이 길수록 시청 지속 시간이 늘어나는 경향이 있고, valence가 급격히 변동하는 순간이 많을수록 댓글 수가 증가한다. trustworthiness는 전반적으로 높은 절대 에너지(신뢰성 신호의 강도)가 긍정적 참여(좋아요·댓글 좋아요)와 강하게 연결된다.

또한, 저자들은 댓글 감성 분석을 위해 ALBERT 기반 트랜스포머 모델을 파인튜닝하여 1,100개 라벨링된 댓글을 학습시켰다. 자동 라벨링된 댓글 감성(긍정/중립/부정)과 감정 특징 간의 상관관계도 조사했으며, 긍정적 댓글 비율이 높은 영상일수록 arousal의 변동 폭이 작고, valence 피크가 많으며, trustworthiness 에너지가 높은 경향을 보였다. 이는 감정 신호가 텍스트 기반 감성과도 일관된 패턴을 형성한다는 점을 시사한다.

연구의 한계로는 데이터가 차량 리뷰 영상에 국한되어 일반 콘텐츠(예: 엔터테인먼트, 교육)로의 확장 가능성이 검증되지 않았으며, 라벨링 비용이 매우 높아(600 시간 × 3 차원 × 5 명) 실시간 적용에는 제약이 있다. 또한, SVR 외의 딥러닝 기반 회귀 모델과의 비교가 부족하고, 멀티모달(음성·영상·텍스트)와의 결합 효과에 대한 탐색이 미흡하다. 그럼에도 불구하고, 연속 감정·신뢰성 신호만으로도 사용자 참여를 예측할 수 있다는 점은 향후 감정 기반 추천·콘텐츠 최적화 시스템 설계에 중요한 인사이트를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기