영상 감정·시간 경계 정렬 자동 사운드트랙 생성

영상 감정·시간 경계 정렬 자동 사운드트랙 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EMSYN​C는 사전 학습된 영상 감정 분류기와 조건부 MIDI 생성기를 결합한 2단계 프레임워크이다. 감정 분류기는 영상에서 카테고리형 감정을 추출하고, 이를 연속형 Valence‑Arousal 값으로 매핑한다. 동시에 장면 전환(시점) 정보를 “boundary offsets”라는 보조 입력으로 제공해, 트랜스포머 기반 음악 생성기가 다음 장면 전환을 미리 예측하고 긴 지속 코드와 같은 시간적 경계에 맞춰 음을 배치한다. 결과적으로 감정과 시간 양쪽에서 영상과 음악이 정밀히 동기화된 심볼릭 MIDI를 자동으로 생성한다.

상세 분석

EMSYN​C 논문은 영상‑음악 동기화 문제를 감정 정렬과 시간 경계 정렬이라는 두 축으로 명확히 구분하고, 각각에 특화된 기술적 해결책을 제시한다. 첫 번째 축인 감정 정렬에서는 기존의 영상 감정 분류기가 출력하는 6가지 Ekman 카테고리(분노, 혐오, 공포, 기쁨, 슬픔, 놀람)를 연속형 Valence‑Arousal 공간으로 변환한다. 변환 과정은 선행 연구에서 수집된 사용자 평가 데이터를 기반으로 한 확률적 매핑(가우시안 혼합 모델)으로, 카테고리별 평균 Valence와 Arousal 값을 사전에 정의하고, 분류기의 출력 확률을 가중 평균해 최종 연속값을 얻는다. 이 매핑은 감정 레이블이 서로 다른 형태(카테고리 vs. 차원)로 존재하는 데이터셋을 하나의 조건으로 통합할 수 있게 해, Lakh MIDI 데이터셋에 부여된 Valence‑Arousal 라벨과 Ekman‑6 영상 데이터셋을 동시에 활용할 수 있게 만든다.

두 번째 축인 시간 정렬에서는 기존 연구가 주로 “밀도 기반” 접근—프레임당 움직임 속도·시각적 변화를 노트 밀도에 직접 매핑—을 사용해, 음악의 박자와 리듬이 불안정해지는 문제를 지적한다. EMSYN​C는 이를 회피하기 위해 “scene cut”이라는 희소한 시간적 경계를 선택하고, 각 토큰에 현재 시점부터 다음 장면 전환까지 남은 시간을 정규화한 scalar 값인 “boundary offset”을 부여한다. 트랜스포머의 입력에 이 값을 추가함으로써 모델은 매 토큰마다 미래의 경계 정보를 인식하고, 장면 전환 직전에 긴 지속 코드를 배치하거나 리듬을 조절한다. 이 방식은 이벤트 기반 토큰화(ON, OFF, TIMESHIFT)와 결합돼, 고정된 32분음표 그리드가 아닌 8 ms 해상도의 자유로운 타임시프트를 유지하면서도 정확한 시점 동기화를 가능하게 한다.

모델 아키텍처는 기본적으로 기존의 Emotion‑Conditioned MIDI Generator를 확장한다. 입력 토큰 시퀀스는 임베딩 후 Positional Encoding과 함께 Concatenation 방식으로 Valence‑Arousal 벡터와 Boundary Offset 벡터와 결합된다. 이후 상대적 전역 어텐션(Relative Global Attention)을 적용한 트랜스포머 블록을 통과해, 각 토큰이 감정 및 시간 정보를 동시에 고려한 확률 분포를 출력한다. 학습은 Lakh Pianoroll Dataset(174 k 곡)에서 이벤트 기반 토큰화된 시퀀스를 사용해 진행되며, 악기 수가 적은 곡에도 “FEWER_INSTRUMENTS” 토큰을 삽입해 데이터 불균형을 완화한다.

평가에서는 객관적 메트릭(음악적 일관성, 코드 진행 정확도, 타임시프트 오차)과 주관적 청취 실험을 모두 수행한다. 특히 “Boundary Offset”을 사용한 모델은 기존의 밀도 기반 모델 대비 장면 전환 시점에서의 코드 정렬 정확도가 18 % 이상 향상되었으며, 청취자 설문에서는 감정 일치도와 리듬 안정성 모두 유의미하게 높은 점수를 받았다.

핵심 기여는 다음과 같다. (1) 감정 카테고리와 연속형 Valence‑Arousal 사이의 매핑을 제안해 멀티모달 데이터 통합을 가능하게 함. (2) “boundary offsets”라는 새로운 시간 조건부 입력을 도입해 이벤트 기반 트랜스포머가 미래의 장면 전환을 예측하도록 함. (3) 대규모 비연관 데이터(Lakh MIDI + Ekman‑6)만을 사용해 영상‑음악 정렬 성능을 기존 최첨단 모델을 전반적으로 능가하도록 향상시킴. 이 접근은 저작권 문제를 피하면서도 창작자가 원하는 감정·구조적 일치를 갖는 맞춤형 사운드트랙을 자동으로 생성할 수 있는 실용적 길을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기