파인튜닝된 Whisper로 합성 단어 탐지와 실시간 전사

본 논문은 사전 학습된 Whisper 모델을 미세조정하여 음성 입력을 전사하면서 합성된 단어를 탐지하는 방법을 제안한다. 부분적으로 보코딩된 데이터로 학습 비용을 절감하고, 인‑도메인에서는 낮은 오류율을, 아웃‑도메인에서는 전용 ResNet 탐지기와 비슷한 성능을 보였지만 일반화 향상이 필요함을 확인하였다.

저자: Hoan My Tran, Xin Wang, Wanying Ge

파인튜닝된 Whisper로 합성 단어 탐지와 실시간 전사
본 논문은 딥페이크 음성에서 특정 단어만을 교체하는 형태의 위조 공격에 대응하기 위해, 사전 학습된 Whisper 모델을 미세조정하여 합성된 단어를 탐지하면서 동시에 음성을 전사하는 새로운 방법론을 제시한다. 기존 연구들은 전체 음성의 진위 여부를 판단하거나, 합성된 단어를 별도로 탐지하기 위해 추가적인 신경망(예: ResNet 기반)이나 복잡한 특징 추출 파이프라인을 도입했다. 이러한 접근법은 높은 정확도를 달성할 수 있지만, 라벨링 비용, 모델 유지보수, 실시간 적용성 측면에서 한계가 있었다. 저자들은 Whisper가 이미 대규모 음성‑텍스트 매핑을 학습한 상태이므로, 이를 활용해 “다음 토큰 예측”이라는 자연스러운 방식으로 합성 단어를 식별할 수 있다고 가정하였다. 구체적으로, Whisper의 디코더는 현재까지 생성된 토큰 시퀀스를 기반으로 다음 토큰의 확률 분포를 예측한다. 합성된 단어가 삽입된 경우, 해당 구간에서 모델이 학습된 자연스러운 언어 패턴과 다른 확률 분포를 보이게 된다. 이를 활용해, 특정 확률 임계값 이하의 토큰을 합성 단어 후보로 표시하고, 동시에 전체 전사 결과를 출력한다. 학습 데이터 구성은 두 가지 주요 축을 따른다. 첫 번째는 “합성 단어 삽입 데이터”로, 원본(bona fide) 음성에 다양한 TTS·VC 모델을 이용해 의미가 다른 단어를 삽입하였다. 삽입 위치와 단어 종류는 무작위로 선정해 다양성을 확보하였다. 두 번째는 “부분 보코딩 데이터”이다. 원본 음성을 저해상도 스펙트로그램(예: 8 kHz, 16 bit)으로 변환한 뒤 다시 복원함으로써, 음성의 세부적인 스펙트럼 정보를 손실시키면서도 텍스트 라벨은 그대로 유지한다. 이 과정은 실제 현장에서 고품질 라벨링을 수행하기 어려운 상황을 모사하고, 데이터 수집 비용을 크게 절감한다는 장점을 가진다. 실험 설계는 인‑도메인과 아웃‑도메인 두 축으로 나뉜다. 인‑도메인에서는 학습에 사용된 합성 모델과 동일한 모델을 이용해 테스트 데이터를 생성하였다. 여기서 제안된 Whisper 기반 탐지기는 합성 단어 탐지 정확도 96.3 %를 기록했으며, 전사 오류율(WER)은 3.8 %로 기존 Whisper 베이스라인 대비 크게 개선되었다. 아웃‑도모인에서는 학습에 포함되지 않은 최신 TTS·VC 모델(예: 최신 Diffusion 기반 TTS)로 생성된 합성 단어를 사용하였다. 이 경우 탐지 정확도는 88.7 %로 약간 감소했지만, 전용 ResNet 기반 탐지기(89.1 %)와 비교했을 때 통계적으로 유의미한 차이가 없었다. 이는 Whisper 기반 접근법이 다양한 합성 기술에 대해 어느 정도 견고함을 유지한다는 것을 의미한다. 성능 분석에서는 몇 가지 흥미로운 현상이 관찰되었다. 첫째, Whisper의 내부 어텐션 가중치가 합성 단어가 삽입된 구간에서 급격히 변동하는 경향이 있었으며, 이를 시각화하면 합성 구간이 명확히 구분되는 패턴을 확인할 수 있었다. 둘째, 부분 보코딩 데이터를 사용한 경우, 전사 성능은 약간 저하되었지만(WER 4.5 %) 탐지 정확도는 크게 영향을 받지 않았다. 이는 Whisper가 손실된 스펙트럼 정보에도 불구하고 텍스트 레이블을 유지하는 능력이 있음을 시사한다. 셋째, 다국어 실험(영어, 한국어, 스페인어)에서 영어와 스페인어는 비교적 높은 탐지 정확도를 보였지만, 한국어는 토큰화 특성상 약 5 % 정도 낮은 정확도를 기록했다. 이는 Whisper의 토크나이저가 서브워드 기반이며, 한국어는 형태소가 복합적으로 결합되는 특성 때문에 합성 단어가 기존 토큰 경계와 겹칠 가능성이 높기 때문이다. 논문은 또한 한계점과 향후 연구 방향을 제시한다. 현재 모델은 학습에 사용된 합성 모델과 유사한 특성을 가진 새로운 합성 기술에 대해서는 일반화가 제한적이다. 이를 해결하기 위해 도메인 적응(adversarial domain adaptation)이나 메타러닝 기반의 빠른 파인튜닝 기법을 도입할 수 있다. 또한, 실제 서비스 환경에서는 배경 잡음, 채널 왜곡, 압축 코덱 등 다양한 변수가 존재하므로, 이러한 조건을 포함한 데이터 증강이 필요하다. 마지막으로, 다국어 지원을 강화하기 위해 각 언어별 토큰화 전략을 재설계하거나, 멀티모달 사전 학습 모델(예: wav2vec 2.0 + BERT)과의 융합을 고려할 수 있다. 결론적으로, 이 연구는 Whisper와 같은 대규모 사전 학습 ASR 모델을 활용해 비용 효율적인 합성 단어 탐지와 동시에 전사를 수행할 수 있음을 실증하였다. 이는 디지털 포렌식, 언론 검증, 실시간 스트리밍 보안 등 다양한 응용 분야에서 딥페이크 방어 체계를 구축하는 데 중요한 기반이 될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기