음성 번역의 형태소 강인성 전이
초록
본 논문은 텍스트 기반 형태소 교란 공격을 음성 번역에 적용해 기존 E2E‑ST 모델이 크게 취약함을 확인하고, adversarial 텍스트만 이용해 음성 모달리티의 강인성을 전이시키는 CMRT 프레임워크를 제안한다. 음성‑텍스트 표현을 고도로 정렬한 뒤, 공격된 텍스트 임베딩을 음성 잠재공간에 삽입해 미세조정함으로써, 별도의 adversarial 음성 데이터를 생성하지 않고도 평균 3 BLEU 이상의 향상을 달성한다.
상세 분석
CMRT는 두 단계로 구성된다. 첫 번째 단계인 CMRT‑TR에서는 음성 인코더와 텍스트 임베딩을 동일한 의미 공간에 정렬한다. 이를 위해 단어 수준 강제 정렬 정보를 활용해 Word‑Aligned Contrastive Learning(WA‑CO) 손실을 적용하고, Mixup 학습을 통해 음성·텍스트 임베딩을 섞어 모델이 혼합 입력에 익숙해지도록 한다. WA‑CO는 같은 단어의 음성 및 텍스트 평균 풀링 벡터를 양성 쌍으로, 배치 내 다른 단어들을 음성·텍스트 음성 쌍의 음성‑텍스트 대비음성(negative)로 설정해 코사인 유사도를 최대화한다. Mixup은 확률 p*에 따라 각 단어를 음성 혹은 텍스트 임베딩 중 하나로 선택하고, 선택된 시퀀스를 연결해 혼합 표현 m을 만든다. 이와 함께 ST, MT, 대칭 KL 손실을 결합해 음성·텍스트 간의 정합성을 강화한다.
두 번째 단계인 CMRT‑FN에서는 실제 형태소 교란 텍스트(eₓ)를 이용한다. 공격된 단어 인덱스 e_I에 해당하는 텍스트 임베딩을 직접 음성 잠재공간에 삽입하고, 나머지 단어는 기존 Mixup 방식을 유지한다. 음성 인코더는 고정하여 정렬된 표현을 보존하고, 번역 디코더는 adversarial mixup 표현 e_m에 대해 교차 엔트로피와 비대칭 KL 손실을 최소화한다. 비대칭 KL은 깨끗한 음성·텍스트 출력 분포와 adversarial mixup 출력 분포를 맞추어, 모델이 교란에 대해 보다 안정적으로 대응하도록 만든다.
핵심 통찰은 “표현 정렬 + 텍스트 교란 삽입”이라는 단순한 메커니즘이 음성 번역 모델의 형태소 강인성을 크게 향상시킨다는 점이다. 기존 방법은 고품질 adversarial 음성을 TTS로 생성해야 하는 높은 계산 비용과 음성 품질 저하 위험을 안고 있었지만, CMRT는 텍스트만으로 동일한 효과를 얻는다. 실험에서는 En‑De, En‑Ca, En‑Ar, Fr‑En 네 언어쌍에 대해 Speech‑MORPHEUS(텍스트 기반 MORPHEUS를 음성에 적용한 평가 세트)로 평가했으며, 평균 3.2 BLEU 이상의 개선을 기록했다. 또한, 기존 adversarial 음성으로 미세조정한 모델과 비교했을 때 원본 CoVoST2 테스트셋에서 성능 저하 없이 동일하거나 더 높은 BLEU를 달성해 “강인성‑정확도 트레이드오프”를 극복했다는 점이 주목할 만하다.
CMRT는 (1) 강력한 음성‑텍스트 정렬을 위한 WA‑CO와 Mixup 결합, (2) 텍스트 교란을 음성 잠재공간에 직접 주입하는 fine‑tuning 전략, (3) 비대칭 KL을 통한 안정적 학습이라는 세 가지 기술적 요소가 시너지 효과를 내며, 향후 다른 형태의 음성 교란(예: 억양·속도 변형)에도 확장 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기