영화 수익성 예측: ‘누구’, ‘무엇’, ‘언제’와 하이브리드 요인의 조합
초록
본 논문은 영화 제작 초기 단계에서 투자 결정을 지원하기 위해, 배우·감독 등 ‘누구’와 장르·줄거리 등 ‘무엇’, 개봉 시기 ‘언제’를 포함한 다중 특성을 자동 추출하고, 이들 간 매칭을 하이브리드 특징으로 결합한 머신러닝 모델을 제시한다. 수집한 11년간의 IMDb와 BoxOfficeMojo 데이터를 기반으로 수익 대비 이익(ROI) 예측에서 기존 방법들을 크게 앞섰으며, 특히 동적 네트워크·플롯 토픽·수익 기반 스타 파워 등 새롭게 설계한 특성이 성능 향상에 크게 기여함을 입증한다.
상세 분석
이 연구는 영화 투자 의사결정이라는 실무적 문제에 초점을 맞추고, 성공 지표를 전통적인 박스오피스 매출이 아닌 ‘수익성(ROI)’으로 정의함으로써 기존 연구와 차별화한다. 데이터 수집 단계에서 IMDb와 BoxOfficeMojo를 결합해 구조화된 메타데이터, 네트워크 관계, 비정형 텍스트(줄거리 요약)를 포괄적으로 확보했으며, 자동화된 크롤링·API 파이프라인을 구축해 재현성을 높였다. 특성 설계는 크게 네 가지 그룹으로 나뉜다. ‘Who’ 특성은 배우·감독의 과거 수익 기반 스타 파워, 협업 네트워크 중심성, 팀 다양성 등을 동적 그래프 지표로 정량화한다. ‘What’ 특성은 장르·MPAA 등 전통 메타데이터와 LDA 기반 플롯 토픽 분포를 결합해 영화 내용의 잠재적 매력을 포착한다. ‘When’ 특성은 개봉 시즌, 휴일·경쟁 영화 수 등 시계열적 시장 상황을 반영한다. 하이브리드 특성은 ‘Who‑What’ 매칭(예: 특정 배우가 선호하는 장르와 과거 수익성)과 ‘What‑When’ 매칭(예: 특정 장르가 특정 시즌에 보이는 트렌드)을 모델에 직접 입력함으로써 상호작용 효과를 학습한다. 모델링 단계에서는 회귀와 분류를 모두 지원하는 여러 머신러닝 알고리즘(RF, GBM, SVM 등)을 교차검증으로 최적화했으며, 베이스라인(단순 회귀, 기존 수익 기반 예측) 대비 평균 절대 오차와 정확도가 현저히 개선되었다. 특히, 새로 제안한 ‘수익 기반 스타 파워’와 ‘동적 네트워크 중심성’이 피처 중요도 분석에서 상위권을 차지해, 전통적인 스타 파워(수상·팔로워)보다 실제 수익성을 더 잘 설명한다는 점을 강조한다. 한계로는 초기 단계에서만 사용할 수 있는 제한된 데이터(예: 마케팅 비용, 사전 관객 기대)와, 텍스트 마이닝에 사용된 줄거리 요약이 공식적인 시놉시스에 의존해 실제 스크립트와 차이가 있을 수 있다는 점을 들 수 있다. 향후 연구에서는 소셜 미디어 선행 신호와 시뮬레이션 기반 시나리오 분석을 결합해 예측 정확도를 더욱 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기