환경음 딥페이크 탐지를 위한 BEAT2AASIST와 레이어 융합

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 BEATs 기반 전처리와 AASIST 그래프 백엔드를 결합한 BEAT2AASIST 모델을 제안한다. 특징 텐서를 주파수 혹은 채널 축으로 분할해 두 개의 독립 AASIST 브랜치를 적용하고, 상위 k개의 트랜스포머 레이어를 연결·CNN‑게이트·SE‑게이트 방식으로 융합한다. 또한 HiFi‑GAN·BigV‑GAN·UnivNet 등 신경 보코더를 이용한 데이터 증강을 도입해 미지의 스푸핑 공격에 대한 강인성을 높였다. ESDD 2026 챌린지 트랙 1·2에서 각각 1.66 %·0.42 %의 EER을 기록하며 경쟁력 있는 성능을 입증한다.

상세 분석

BEAT2AASIST는 기존 BEATs‑AASIST 파이프라인을 크게 두 축으로 확장한다. 첫 번째 확장은 특징 텐서를 주파수 축과 채널 축으로 각각 절반씩 나누어 두 개의 AASIST 서브네트워크에 입력하는 구조이다. 주파수 기반 분할은 고·저주파 스펙트럼에서 나타나는 스푸핑 아티팩트를 별도로 학습하도록 설계돼, 환경음의 스펙트럼 변동성이 큰 경우에 유리하다. 채널 기반 분할은 BEATs가 출력하는 768 차원 토큰을 384 차원씩 두 그룹으로 나누어, 토큰 내부의 채널 상관관계를 별도 그래프 어텐션으로 처리한다. 이중 브랜치 설계는 서로 보완적인 특징을 포착해 최종 결정 단계에서 결합함으로써 단일 브랜치 대비 판별력을 향상시킨다.

두 번째 핵심 기법은 ‘top‑k 레이어 융합’이다. 대규모 사전학습 모델은 초기 레이어부터 최종 레이어까지 서로 다른 수준의 음향 정보를 담고 있다. 논문은 k = 4 ~ 10 범위의 레이어를 선택해 세 가지 융합 방식을 적용한다. Concatenation 방식은 선택된 레이어 출력을 그대로 이어 붙여 풍부한 정보를 보존하지만 파라미터 증가가 있다. CNN‑gate 방식은 입력 멜‑스펙트로그램을 2‑D 컨볼루션으로 처리해 레이어별 가중치를 동적으로 생성한다; 이는 입력 신호의 특성에 따라 중요한 레이어를 강조한다. SE‑gate 방식은 선택된 레이어 자체의 채널 정보를 이용해 시그널 간 전역 상관관계를 모델링한다, 특히 다중 레이어 간의 일관된 음향 패턴을 포착하는 데 강점이 있다. 실험 결과, 주파수 기반 분할에 SE‑gate를 적용한 경우 트랙 1에서 1.66 % EER, 채널 기반 분할에 SE‑gate를 적용한 경우 트랙 2에서 0.42 % EER을 달성하며, CNN‑gate 기반 융합이 트랙 2에서 가장 낮은 오류율을 기록한다.

데이터 증강 측면에서 저자들은 HiFi‑GAN, BigV‑GAN, UnivNet 등 최신 신경 보코더를 활용해 ‘copy‑synthesis’ 방식의 스푸핑 데이터를 생성한다. 이는 실제 TTS·ATA 모델을 훈련시키지 않고도 다양한 합성 아티팩트를 포함한 가짜 음원을 확보하게 해, 모델이 보코더 특유의 왜곡에 과적합되는 위험을 완화한다. 특히 트랙 2의 블랙‑박스 환경에서 여러 보코더를 혼합한 증강이 성능 향상에 크게 기여한 것으로 보인다.

전체적으로 BEAT2AASIST는 (1) 특징 분할을 통한 이중 그래프 어텐션, (2) 다중 레이어 융합을 통한 표현 강화, (3) 보코더 기반 데이터 증강을 통한 일반화력 향상이라는 세 축을 결합한다. 장점은 기존 베이스라인 대비 파라미터 효율성을 크게 해치지 않으면서도 다양한 스푸핑 유형에 대한 강인성을 확보한다는 점이다. 다만, 레이어 선택 k값과 융합 방식에 대한 하이퍼파라미터 탐색이 성능에 민감하며, 실시간 적용을 위한 연산량 평가가 부족한 점은 향후 과제로 남는다.

환경음 딥페이크 탐지를 위한 BEAT2AASIST와 레이어 융합

초록

상세 분석

댓글 및 학술 토론

의견 남기기