데이터 과학으로 관객 선호 예측: 공연 예술 맞춤형 추천 시스템

미시간 데이터 사이언스 팀은 대학음악협회(UMS)의 5년간 티켓 구매 데이터를 활용해 고객 세분화, 마크오프 체인 기반 구매 예측, 공연 설명의 가독성·형식성 분석, 그리고 협업 필터링 기반 추천 모델을 구축하였다. 이를 통해 구독 고객과 일반 고객의 행동 차이를 파악하고, 공연 설명이 매출에 미치는 영향을 정량화했으며, 잠재적 관객에게 맞춤형 마케팅을 제공할 수 있는 기반을 마련했다.

저자: Jacob Abernethy (University of Michigan), Cyrus Anderson (University of Michigan), Alex Chojnacki (University of Michigan)

데이터 과학으로 관객 선호 예측: 공연 예술 맞춤형 추천 시스템
본 논문은 미시간 대학교 데이터 사이언스 팀(MDST)이 대학음악협회(UMS)와 협업하여 수행한 데이터 기반 고객 분석 및 추천 시스템 구축 과정을 상세히 기술한다. 서론에서는 공연 예술 조직이 관객의 취향을 정확히 파악하고 적절히 매칭하는 것이 매출과 사명 달성에 핵심임을 강조하고, 이를 위해 전자상거래와 디지털 엔터테인먼트에서 활용되는 추천 기술을 도입할 필요성을 제시한다. 관련 연구 파트에서는 기존 공연 예술 분야에서 고객 세분화, 텍스트 분석, 매트릭스 팩터라이제이션 등을 활용한 사례들을 검토하고, 본 연구가 이러한 방법들을 통합적으로 적용한다는 점을 차별점으로 제시한다. 데이터 섹션에서는 2011‑2015년 5년간의 익명화된 티켓 거래 데이터를 소개한다. 총 190 000건 이상의 거래, 48 000명의 고객, 매출 1 300만 달러 규모이며, 각 거래는 계정 번호, 계정 생성일, 고객 유형(가구·개인·기관), 공연명·일시·장소, 가격·좌석 수, 프로모션 여부, 판매 채널, 주문일, 우편번호 등을 포함한다. 특히 구독제(시즌 패키지)와 일반 티켓을 구분하여 분석했으며, 구독 고객은 전체 매출의 1/3을 차지하지만 고객 수는 5.6 %에 불과한 점을 강조한다. 시각화 결과는 고객 활동 기간, 매출 구성, 연간 구매 패턴을 보여준다. 고객의 66 %가 일회성 구매에 그치며, 비구독 티켓은 연중 고르게 분포하지만 5‑7월은 공연이 없으므로 구매가 거의 없고, 구독 티켓은 4‑6월에 집중되는 특성을 보인다. 이는 구독이 다음 시즌을 미리 예약하는 형태임을 시사한다. 공연 설명 텍스트 분석 파트에서는 UMS 웹사이트에서 수집한 5 000여 개의 공연 설명을 평균 164 토큰 길이로 정제하고, 장르별(오케스트라·챔버·재즈·연극·무용·합창·기타)로 분류하였다. 가독성(Flesch‑Kincaid), 형식성(Heylighen‑Dewaele), 길이 세 가지 지표를 산출하고, 비구독 티켓 판매 비율과의 상관관계를 분석했다. 가독성은 15학년 수준에서 매출이 최대가 되며, 형식성과 길이는 증가할수록 매출이 상승하는 양의 상관관계를 보였다(피어슨 r=0.26, 0.12, 0.14). 이는 관객이 보다 전문적이고 상세한 설명을 선호한다는 인사이트를 제공한다. 협업 필터링 모델링 섹션에서는 고객‑공연 이진 매트릭스 X(Nc×Np)를 정의하고, 행렬 분해 X≈LRᵀ+BL+BR 형태로 모델링하였다. 여기서 L∈ℝ^{Nc×k}, R∈ℝ^{Np×k}는 각각 고객과 공연의 k차원 잠재 벡터이며, BL, BR은 편향 항이다. 정규화된 Frobenius norm 최소화 문제를 ALS(Alternating Least Squares) 알고리즘으로 해결했으며, SGD보다 수렴이 빠르고 안정적이었다. 분해 결과를 시각화한 Figure 4에서는 학생 고객과 일반 고객을 3차원 잠재 공간에 투영했으며, 두 집단 모두 다양한 방향으로 퍼져 있어 명확한 군집이 없음을 확인했다. 이는 UMS가 제공하는 공연이 다양한 예술적 취향을 포괄하고 있음을 의미한다. Figure 5에서는 구독 시리즈별 공연을 색상으로 구분해 잠재 공간에 배치했으며, 장르 간 경계가 비교적 명확하면서도 일부 교차가 존재함을 보여준다. 고객 전이 모델링을 위해 마코프 체인을 도입했다. 상태는 ‘구독 고객’, ‘비구독 고객’, ‘미구매’ 등으로 정의하고, 전이 확률을 추정해 시즌 초기에 구독 고객이 높은 전이 확률을 보이며, 비구독 고객은 공연 일정에 따라 파동형 전이 패턴을 보인다는 결과를 도출했다. 이 모델은 고객 수명 가치(LTV) 예측과 맞춤형 마케팅 시점 선정에 활용될 수 있다. 마지막으로 논문은 현재 모델의 한계와 향후 과제를 논의한다. 신규 공연에 대한 콜드 스타트 문제, 실시간 공연 일정 제약, 텍스트 특징과 매출 간 인과관계 해석의 어려움 등이 제시된다. 향후에는 콘텐츠 기반 필터링, 딥러닝 기반 텍스트 임베딩, A/B 테스트를 통한 마케팅 효과 검증 등을 통해 시스템을 보강하고, 보다 정교한 관객 맞춤형 추천 및 마케팅 전략을 구현하고자 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기