다중생성기 다중도메인 다중언어 문화 다중장르 다중악기 머신생성 음악 탐지 데이터베이스 M6
초록
M6은 머신생성 음악(MGM)과 인간 제작 음악을 구분하기 위한 대규모 벤치마크 데이터셋으로, 6가지 생성기, 여러 도메인·언어·문화·장르·악기를 포괄한다. WAV 형식의 원시 오디오와 풍부한 메타데이터를 제공하며, 기본 이진 분류 모델들의 성능을 평가해 현재 탐지 기술의 한계를 제시한다.
상세 분석
본 논문은 머신생성 음악 탐지(MGMD) 분야에서 데이터 부족이라는 근본적인 문제를 해결하고자 M6이라는 포괄적 데이터베이스를 구축하였다. 먼저 기존 데이터셋(FakeMusicCaps, SONICS)의 한계를 상세히 분석한다. FakeMusicCaps는 생성기 식별에 초점을 맞추고 텍스트‑음악 정렬에 최적화돼 실제 오디오 수준의 진위 구분에 한계가 있다. SONICS는 전체 곡을 합성하는 시나리오에 집중하지만, 생성기·문화·언어·악기 다양성이 부족하고, 데이터 라벨링이 제한적이다. 이러한 점을 보완하기 위해 M6은 (1) 다중 생성기(AMG, MG, MusicGPT 등)와 두 단계(기본 MG와 대형 MG)를 포함해 생성 모델 간 스타일 차이를 확보하고, (2) 인간 음악은 GTZAN, FMA, COSIAN, MISD 등 네 가지 고품질 데이터베이스에서 균형 있게 샘플링하여 장르·악기·길이 분포를 맞춘다. (3) 언어·문화 다양성을 위해 중국어, 일본어, 영어 3개 언어와 각각의 문화적 특성을 반영한 곡을 별도 카테고리로 구성한다. (4) 음악 길이는 평균 60초로 표준화하고, 2~3분 길이의 서브셋을 추가해 장기 시퀀스 모델의 견고성을 테스트한다.
데이터 수집 파이프라인은 인간 음악과 머신생성 음악을 별도로 확보한 뒤, LLM(GPT‑3.5) 기반 프롬프트 엔지니어링으로 조건을 부여한다. 생성된 오디오는 모두 WAV(44.1 kHz) 형식으로 저장돼, 스펙트로그램·멜‑스케일·리듬 엔트로피 등 저수준 오디오 특징을 추출할 수 있다.
베이스라인 실험에서는 CNN 기반 특징 추출기와 Transformer 기반 모델을 각각 적용했으며, 전자는 약 78 %의 정확도를 보인 반면 Transformer는 73 % 수준에 머물렀다. 이는 현재의 Transformer가 긴 오디오 시퀀스에서 효율적인 장기 의존성 학습에 한계가 있음을 시사한다. 또한, 다중 생성기 혼합 데이터에 대해 모델이 특정 생성기의 특성을 과대 학습하는 경향이 발견돼, 일반화 성능 향상을 위한 도메인 적응 및 메타러닝 기법의 필요성을 강조한다.
데이터셋 공개와 함께 코드와 메타데이터를 Hugging Face에 배포함으로써 재현 가능성을 확보하고, 향후 새로운 생성기·도메인·언어를 지속적으로 추가할 계획을 밝힌 점은 연구 커뮤니티에 큰 가치를 제공한다. 전반적으로 M6은 MGMD 연구에 필요한 다양성, 규모, 품질을 모두 갖춘 최초의 종합 데이터베이스로, 향후 워터마킹, 스타일 전이 탐지, 멀티모달 검증 등 다양한 연구 방향을 촉진할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기