AI 생성 음악 탐지를 위한 융합 세그먼트 트랜스포머

AI 생성 음악 탐지를 위한 융합 세그먼트 트랜스포머
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 단편 오디오에 국한된 AI 생성 음악 탐지 방식을 넘어, 전체 곡 길이의 구조적 특성을 포착하는 Fusion Segment Transformer(FST)를 제안한다. 짧은 세그먼트에서 다양한 SSL 기반 특성 추출기로 얻은 콘텐츠 임베딩과, 세그먼트 간 유사성을 나타내는 Self‑Similarity Matrix(SSM)를 양방향 교차‑Attention과 게이트형 융합 레이어로 결합해 장기 컨텍스트를 학습한다. SONICS와 AIME 데이터셋에서 기존 Segment Transformer와 최신 베이스라인을 크게 앞서며, 추출기 독립적인 성능 향상을 입증한다.

상세 분석

본 연구는 AI‑Generated Music(AIGM) 탐지라는 새로운 도메인에 ‘세그먼트’라는 음악 이론적 단위를 도입하고, 이를 기반으로 두 단계 파이프라인을 설계하였다. 1단계에서는 10초 길이의 짧은 세그먼트를 대상으로 wav2vec 2.0, Music2vec, MER T, FXencoder, 그리고 고주파 특화 Muffin Encoder 등 다섯 종류의 사전학습된 모델을 AudioCA T 프레임워크에 연결한다. AudioCA T는 각 추출기의 출력에 고정된 Cross‑Attention 디코더를 적용해 콘텐츠 임베딩을 생성하고, 이를 정규화·분류 헤드와 결합한다. 이 단계는 기존 연구와 동일하지만, Muffin Encoder를 새롭게 도입해 0‑12 kHz 대역을 저·중·고주파 3밴드로 분할, 멀티‑리셉티브 필드(Fusion) 모듈로 미세한 고주파 왜곡을 포착한다는 점이 차별점이다.

2단계에서는 전체 트랙을 4‑bar 다운비트 기준으로 세그먼트화하고, 1단계에서 얻은 임베딩 시퀀스 E={e₁,…,e_N}을 입력한다. 여기서 Self‑Similarity Matrix SSM_{ij}=exp(−‖e_i−e_j‖²/d) 를 계산해 구조 정보를 정량화한다. 기존 Segment Transformer는 콘텐츠 스트림과 구조 스트림을 단순히 concat하고 두 개의 독립 Transformer 인코더에 투입했지만, 이는 두 정보 간 상호작용을 충분히 활용하지 못한다는 한계가 있다. 본 논문은 이를 개선하기 위해 (1) 콘텐츠 스트림과 SSM 스트림 각각에 별도 Transformer 인코더를 배치하고, (2) 양방향 Cross‑Attention을 통해 서로를 쿼리·키·밸류로 교환한다. 구체적으로, 콘텐츠 스트림을 Query, SSM 스트림을 Key·Value로 하는 Cross‑Attention을 수행해 X_content를 얻고, 반대로 SSM을 Query, 콘텐츠를 Key·Value로 하여 X_structure를 만든다. 이후 두 출력에 LayerNorm을 적용하고, Gated Multimodal Unit을 차용한 Adaptive Fusion Gate G=σ(W_g


댓글 및 학술 토론

Loading comments...

의견 남기기