환경 인식 음성·소리 딥페이크 탐지 챌린지 ESDD2
초록
실제 환경에서 녹음된 음성은 말과 배경음 두 구성요소로 이루어지며, 최신 TTS·음성 변환 기술로 각각을 독립적으로 변조할 수 있다. 이를 탐지하기 위해 저자들은 250 k 이상, 총 283시간 분량의 CompSpoofV2 데이터셋과 분리‑강화 공동학습 프레임워크를 제시하고, ICME 2026와 연계된 ESDD2 챌린지를 개최한다. 평가 지표는 5클래스 Macro‑F1이며, 보조 지표로 원본·음성·배경음 EER을 제공한다.
상세 분석
본 논문은 기존 전체 오디오 위조 탐지 연구가 말과 배경음이 동시에 변조된 경우에만 초점을 맞추어 왔던 한계를 지적한다. 실제 환경에서는 말과 배경음이 독립적으로 변조될 가능성이 높으며, 이러한 ‘컴포넌트‑레벨’ 위조는 인간 청취자에게 자연스럽게 들리면서 기존 탐지 시스템을 혼란스럽게 만든다. 이를 해결하기 위해 저자들은 두 가지 핵심 기여를 제시한다. 첫째, CompSpoofV2 데이터셋은 기존 CompSpoof을 확장하여 250 000개 이상의 4초 길이 샘플을 포함하고, 각 샘플을 ‘원본’, ‘말‑원본·배경‑원본’, ‘말‑위조·배경‑원본’, ‘말‑원본·배경‑위조’, ‘말‑위조·배경‑위조’의 5가지 클래스로 라벨링한다. 데이터는 AudioCaps, VGGSound, CommonVoice, LibriTTS 등 다양한 공개 코퍼스를 활용해 구성했으며, 훈련·검증 세트와는 다른 새로운 합성 샘플을 평가·테스트 세트에 포함시켜 일반화 성능을 평가한다. 둘째, 분리‑강화 공동학습 프레임워크는 (1) 전체 믹스가 위조되었는지 판별하는 프리필터, (2) 음성·배경음 각각을 분리하는 신경망, (3) 분리된 두 스트림에 특화된 위조 탐지 모델을 적용하고, (4) 최종적으로 5클래스 예측으로 통합한다. 분리 단계는 위조 신호가 포함된 주파수·시간 패턴을 보존하도록 설계돼, 후속 탐지 모델이 위조 특성을 놓치지 않게 한다. 학습은 전체 파이프라인을 end‑to‑end 방식으로 공동 최적화하며, 손실 함수는 클래스별 F1을 균등하게 반영하도록 가중치를 부여한다.
평가 지표는 Macro‑F1을 기본으로 삼아 클래스 불균형에 강인하도록 설계했으며, 보조 지표인 원본 EER, 말 EER, 배경 EER은 각각 원본/위조 구분, 말 위조 탐지, 배경음 위조 탐지를 별도로 측정한다. 이는 참가자들이 시스템의 강점과 약점을 진단하는 데 유용하다. 베이스라인 결과는 검증 세트에서 0.9462의 F1, 테스트 세트에서 0.6327의 F1를 기록했으며, EER은 0.017~0.43 사이로 제시된다. 이는 컴포넌트‑레벨 위조 탐지의 난이도가 높음을 시사한다. 또한, 챌린지는 CodaBench 플랫폼을 이용해 최대 10번의 제출을 허용하고, 최종 순위는 상위 3개의 제출 결과를 평균해 결정한다. 데이터 사용 정책은 2026년 1월 1일 이전에 공개된 사전 학습 모델만 허용하고, 추가 데이터 사용은 사전 승인 절차를 거치도록 명시한다. 이러한 엄격한 규정은 공정성을 확보하면서도 최신 모델 활용을 장려한다.
전반적으로 본 연구는 (1) 실제 환경을 반영한 대규모 컴포넌트‑레벨 위조 데이터셋 제공, (2) 분리‑강화 공동학습이라는 새로운 탐지 파이프라인 제안, (3) 국제 학술대회와 연계된 실용적인 챌린지 설계라는 세 축을 통해 음성·소리 위조 탐지 분야의 연구 방향을 크게 확장한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기