WST X 시리즈 해석 가능한 음성 딥페이크 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 파동산란 변환(Wavelet Scattering Transform, WST)을 기반으로 한 WST‑X 시리즈를 제안한다. 1D와 2D WST를 활용해 저주파·고주파 해상도를 조절하고, 작은 평균 스케일(J)과 높은 주파수·방향 해상도(Q, L)를 결합함으로써 미세한 스펙트럼 이상 현상을 포착한다. Deepfake‑Eval‑2024 데이터셋 실험에서 기존 멜·LFCC·CQCC 등 전통적인 전처리와 최신 SSL 특징을 능가하는 성능을 보였으며, 변환 자체가 수학적으로 번역·변형에 강인하고 해석 가능하다는 장점을 강조한다.

상세 분석

본 연구는 음성 딥페이크 탐지 시스템의 전처리 단계에서 발생하는 투명성·성능 간의 트레이드오프를 근본적으로 해소하고자 한다. 기존 DSP 기반 필터뱅크(멜 스펙트로그램, LFCC, CQCC)는 해석이 용이하지만 고차 의미 정보를 놓치고, 최신 SSL 모델(XLSR‑300M, HuBERT, MMS 등)은 강력한 표현력을 제공하지만 블랙박스 특성으로 인해 법과학적 증거 제시가 어려운 점이 있다. 파동산란 변환(WST)은 멀티스케일 웨이브렛 필터와 절대값 비선형성을 계층적으로 적용해, 신호의 에너지와 변조 구조를 안정적으로 캡처한다. 특히, 1D WST는 원시 파형에 직접 적용돼 시간‑주파수 해상도를 미세하게 조정할 수 있고, 2D WST는 SSL 모델이 출력한 고차원 잠재 특징을 이미지 형태로 처리해 시간·주파수 축 모두에서 방향성(L)과 스케일(J)을 제어한다.

실험에서는 J∈{2,4,6,8}, Q∈{1,8,10}, L∈{1,2,3,4,6,8,10} 등 다양한 파라미터 조합을 탐색하였다. 결과는 작은 평균 스케일(J=2)이 가장 좋은 성능을 보였으며, 이는 고주파 세부 정보를 보존하면서도 충분한 평균화를 제공해 잡음에 대한 강인성을 유지함을 의미한다. 1D WST‑X1에서는 Q=10, M=2(2차 스캐터링) 설정이 minDCF 0.3408, EER 14.18%를 기록해 기존 멜·LFCC 대비 6~8% 절감 효과를 나타냈다. 2D WST‑X2는 L=10, J=2, M=2 조합에서 minDCF 0.3567, EER 14.84%를 달성했으며, 특히 AUC 92.43%로 높은 판별력을 보였다. 이는 2D 스캐터링이 SSL 특징의 구조적 상관관계를 효과적으로 추출함을 시사한다.

두 가지 통합 전략을 비교했을 때, 병렬 구조(WST‑X1)는 1D WST와 PT‑XLSR의 특징을 단순히 결합해 빠른 추론 속도와 구현 용이성을 제공한다. 반면, 연속 구조(WST‑X2)는 SSL 특징을 2D WST에 투입해 고차원 텐서 형태의 스캐터링을 수행함으로써 더 풍부한 시간‑주파수 상호작용을 포착한다. 실험 결과는 두 접근법 모두 기존 전처리 대비 유의미한 개선을 보였으며, 특히 WST‑X2는 고차원 구조 정보를 활용해 복잡한 변조 패턴을 탐지하는 데 강점을 가진다.

또한, 시각화(Fig. 3)에서 첫 번째·두 번째 차수 스캐터링이 가짜 음성의 미세한 스펙트럼 변형을 강조하는 영역을 명확히 드러내며, 이는 인간 청취자나 포렌식 분석가가 직접 확인할 수 있는 해석 가능한 힌트를 제공한다. 따라서 WST‑X 시리즈는 “수학적 안정성 + 해석 가능성 + 고성능”이라는 삼위일체를 구현한 전처리 프레임워크라 할 수 있다.

마지막으로, 본 논문은 파라미터 탐색 결과를 통해 작은 J와 높은 Q·L이 딥페이크 탐지에 최적임을 제시하고, 향후 더 큰 규모의 멀티언어·멀티도메인 데이터셋에 대한 일반화 연구와, 실시간 시스템에의 경량화 적용 가능성을 제안한다.

WST X 시리즈 해석 가능한 음성 딥페이크 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기