음악 감정 인식을 위한 오디오·가사 멀티모달 접근

본 논문은 오디오와 가사 두 가지 모달리티를 동시에 활용한 딥 컨볼루션 신경망(MoodNet)을 제안한다. 멜 스펙트로그램과 100차원 워드 임베딩을 각각 입력으로 사용하고, 각각의 특징을 추출한 뒤 완전 연결층에서 결합해 감정 클래스를 예측한다. MIREX 멀티모달 데이터셋과 Million Song Dataset에서 F1‑score 기준으로 기존 단일 모달리티 대비 우수한 성능을 보였으며, 특히 가사가 오디오보다 감정 표현에 더 효과적임을 확…

저자: Aniruddha Bhattacharya, K.V. Kadambari

음악 감정 인식을 위한 오디오·가사 멀티모달 접근
본 논문은 음악 감정 인식(MER) 분야에서 오디오와 가사라는 두 가지 서로 보완적인 정보를 동시에 활용하는 멀티모달 딥러닝 모델인 MoodNet을 제안한다. 기존 연구들은 주로 MFCC, 코드 진행, 리듬 패턴 등 오디오 기반 특성에 의존하거나, 가사에 대해 Bag‑of‑Words, LDA와 같은 전통적인 NLP 기법을 적용해 왔다. 그러나 이러한 단일 모달리티 접근법은 감정 표현의 복합성을 충분히 포착하지 못한다는 한계가 있다. 이를 극복하기 위해 저자들은 멜 스펙트로그램을 시각적 이미지 형태로 변환하고, 가사는 100 차원 GloVe 워드 임베딩으로 변환해 각각 2‑D CNN에 입력한다. 오디오 스트림은 로그‑멜 스펙트로그램(96 × 1366 × 1)을 입력으로 받아, 3~5개의 컨볼루션‑맥스 풀링 블록을 거쳐 2048 차원의 고차원 특징을 추출한다. 각 블록은 3 × 3 커널을 사용하고, 채널 수는 128에서 2048까지 점진적으로 증가한다. 풀링은 비대칭 스트라이드(예: (2,4), (3,5))를 적용해 시간 축과 주파수 축을 효율적으로 축소한다. 텍스트 스트림은 가사의 각 단어를 100 차원 벡터로 변환하고, 문장을 행, 단어를 열로 배치해 2‑D 행렬을 만든 뒤, 여러 문장을 쌓아 3‑D 텐서 형태로 만든다. 이 텐서 역시 동일한 CNN 구조를 통해 2048 차원의 특징을 얻는다. 두 스트림에서 얻은 특징 벡터는 차원 맞춤을 위해 1‑D 연결(총 5096 차원)된 뒤, 20 % 드롭아웃을 포함한 4개의 완전 연결 레이어(2048→1024→512→256)와 ReLU 활성화를 거쳐 최종적으로 5개의 감정 클래스(열정, 즐거움, 서정, 유머, 격정)를 출력하는 소프트맥스 층에 연결된다. 학습은 ADAM 옵티마이저와 카테고리형 교차 엔트로피 손실 함수를 사용했으며, 배치 정규화와 같은 추가 정규화 기법은 적용되지 않았다. 실험은 두 개의 공개 데이터셋을 대상으로 수행되었다. 첫 번째는 MIREX 멀티모달 데이터셋으로, 903개의 30초 클립이 5개의 감정 클러스터에 라벨링되어 있다. 두 번째는 Million Song Dataset에서 추출한 48 476개의 곡(40 476 훈련, 8 000 검증)으로, 라스트.fm 태그를 기반으로 동일한 5개의 감정 클러스터로 재구성하였다. 오디오는 12 kHz로 다운샘플링하고 29 초 길이로 트리밍했으며, 가사는 최대 라인 길이에 맞춰 zero‑padding을 적용해 입력 차원을 고정하였다. 성능 평가는 F1‑score를 기준으로 하였으며, MoodNet‑4(4‑계층 CNN) 모델이 MIREX 데이터셋에서 76.34 %의 최고 점수를 기록했다. Million Song Dataset에서는 더 깊은 5‑계층 모델인 MoodNet‑5가 71.29 %의 F1을 달성했다. 단일 모달리티 실험에서는 가사만 사용했을 때 F1이 62.39 %(MIREX)·64.79 %(MSD)로, 오디오만 사용했을 때보다 현저히 높았으며, 두 모달리티를 결합했을 때는 각각 66.28 %·69.73 %까지 상승하였다. 이는 가사가 감정 정보를 보다 직접적으로 전달한다는 가설을 뒷받침한다. 논문은 또한 모델의 한계점을 언급한다. 현재 구조는 전체 곡을 하나의 고정‑길이 벡터로 압축하기 때문에 감정이 시간에 따라 변하는 다이나믹한 특성을 포착하지 못한다. 또한, 가사 데이터에 크게 의존하므로 가사가 없거나 비영어권 가사에 대한 일반화가 제한적이다. 향후 연구 방향으로는 순환 신경망(LSTM, GRU)이나 Transformer 기반 어텐션 메커니즘을 도입해 시계열적 의존성을 모델링하고, 오디오와 가사 간의 교차‑모달 어텐션을 학습함으로써 더 정교한 감정 표현을 기대한다. 비디오와 같은 추가 시각적 모달리티를 결합하면 멀티센서리 감정 인식이 가능해지며, 최종적으로 감정 기반 음악 추천 시스템에 적용해 콜드 스타트 문제를 완화하고 사용자 맞춤형 음악 탐색을 지원할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기