영화 대본을 통한 서사 구조 분석: 카사블랑카와 CSI 사례 연구

** 본 논문은 영화 대본을 텍스트 데이터로 취급하고, 대응분석(Correspondence Analysis)과 연속성을 보존한 계층적 군집화를 이용해 서사의 변화와 구조를 정량화한다. 카사블랑카와 CSI TV 시리즈 6개의 에피소드를 실험 대상으로 삼아, 맥키의 서사 이론을 수치화하고, 장면 간 의미적 전이와 클라이맥스 구조를 시각화한다. **

저자: ** - **Fionn Murtagh** – Department of Computer Science, Royal Holloway, University of London

영화 대본을 통한 서사 구조 분석: 카사블랑카와 CSI 사례 연구
** 본 논문은 영화 대본을 데이터 마이닝의 대상으로 삼아, 서사의 구조와 변화를 정량적으로 분석하는 방법론을 제시한다. 연구 동기는 텔레비전·영화 산업에서 스크립트 작가를 지원하는 도구의 필요성에 있다. 이를 위해 저자들은 두 종류의 대본—클래식 영화 ‘카사블랑카’와 미국 TV 시리즈 ‘CSI’의 6개 에피소드—를 선택하였다. 먼저 대본을 ‘장면‑단어’ 교차표 형태로 변환한다. 모든 단어를 소문자로 통일하고, 두 글자 이상인 토큰만을 사용하며, 숫자와 구두점은 제외한다. 각 장면‑단어 쌍에 대해 존재(1)·부재(0) 혹은 빈도값을 기록한다. 이렇게 구성된 고차원 이산 데이터는 대응분석(Correspondence Analysis, CA)의 입력으로 사용된다. CA는 관측치(장면)와 변수(단어)를 동일한 유클리드 공간에 임베딩함으로써, 장면 간 의미적 거리를 최소제곱 기준으로 최적화한다. 차원 축소 후 2~3차원 플롯에 투사하면, 장면들이 의미적으로 가까운 군집을 형성하고, 서로 다른 군집 사이의 거리는 서사적 전환점을 암시한다. 다음 단계는 순서를 고려한 계층적 군집이다. 일반적인 군집은 순서를 무시하지만, 서사 분석에서는 시간적 연속성이 핵심이다. 저자들은 ‘연속성 제한 완전 연결(complete‑link) 군집’을 적용했다. 구체적으로, 인접한 장면만을 병합 후보로 두고, 두 클러스터 사이의 최대 거리(가장 불일치하는 장면 쌍)를 최소화하는 쌍을 선택해 순차적으로 합친다. 이 과정은 O(n²) 시간·공간 복잡도를 가지며, 결과는 덴드로그램 형태로 시각화된다. 덴드로그램에서 급격히 높은 거리에서 병합되는 장면들은 서사적 전환점, 클라이맥스, 혹은 ‘비정상적’ 장면으로 해석된다. 카사블랑카 분석에서는 약 55개의 장면을 대상으로 하였으며, CA 결과는 초기 장면들이 ‘도입’ 군집에 모이고, 중간부에서 ‘갈등‑전개’ 군집으로 이동한 뒤, 마지막에 ‘해결‑클라이맥스’ 군집으로 수렴하는 흐름을 보여준다. 특히, 클라이맥스 직전 장면들의 의미적 거리가 급격히 증가했다가, 클라이맥스 장면에서 다시 급격히 감소하는 패턴이 관찰되었다. 이는 맥키가 제시한 ‘시퀀스‑액트‑플롯’ 구조와 일치한다. 또한, 장면 길이(시간적 템포)와 의미적 거리 사이의 상관관계를 분석했을 때, 템포가 빨라질수록(짧은 장면) 의미적 거리가 늘어나고, 클라이맥스 직전에는 장면이 길어지면서 의미적 거리가 감소하는 현상이 확인되었다. CSI 에피소드 분석에서는 각 에피소드를 ‘도입‑조사‑해결’ 3단계로 구분하였다. CA 결과는 초기 도입 단계에서 사용되는 단어들이 제한적이며, 조사 단계에서는 과학적 용어와 사건 관련 단어가 급증해 의미적 분산이 커진다. 해결 단계에서는 다시 핵심 단어가 집중되면서 의미적 군집이 축소된다. 이러한 구조는 ‘미니플롯(미니멀리즘)’과 ‘안티플롯(반전 구조)’이라는 맥키의 분류를 정량적으로 뒷받침한다. 또한, 연속성 제한 군집을 적용했을 때, 조사 단계의 장면들이 서로 가까이 병합되고, 도입‑해결 단계와는 큰 거리에서 병합되는 것이 시각적으로 드러났다. 논문의 주요 기여는 다음과 같다. 첫째, 서사 이론(맥키)의 질적 요소를 텍스트 기반 데이터와 통계적 방법으로 구체화했다. 둘째, 대응분석을 통해 장면‑단어 관계를 유클리드 공간에 임베딩함으로써 의미적 거리와 시각화를 가능하게 했다. 셋째, 연속성을 보존하는 계층적 군집을 도입해 시간적 흐름 속에서 의미적 변화를 정량적으로 포착했다. 넷째, 영화와 텔레비전 두 장르에 적용함으로써 방법론의 일반성을 검증했다. 실용적 측면에서는 스크립트 작가가 초안 단계에서 자신의 대본을 자동으로 분석해 구조적 결함(예: 클라이맥스 부재, 템포 불균형)을 사전에 발견할 수 있다. 또한, 제작사는 대본의 ‘스토리 품질’ 점수를 객관적인 데이터로 평가해 투자 위험을 감소시킬 수 있다. 향후 연구에서는 대본 외에 시각·음향 메타데이터를 결합하거나, 감정 분석·주제 모델링을 추가해 서사의 다차원적 특성을 더욱 풍부하게 탐구할 계획이다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기