비지도 음성텍스트 번역을 위한 새로운 프레임워크

본 논문은 “비지도 음성‑텍스트 번역”이라는 새로운 연구 영역을 개척한다. 전통적인 음성‑텍스트 번역 시스템은 자동 음성 인식(ASR)과 기계 번역(MT) 두 단계로 구성되며, 각각 수백 시간의 라벨링된 음성 데이터와 수백만 문장의 병렬 텍스트를 필요로 한다. 최근 엔드‑투‑엔드 접근법이 등장했지만, 이 역시 소스 음성‑목표 텍스트 쌍이 필수이다. 따라서 저자들은 라벨이 전혀 없는 상황, 즉 소스 언어의 음성 코퍼스와 목표 언어의 텍스트 코퍼스만을 이용해 번역 시스템을 만들고자 한다. 제안된 프레임워크는 크게 네 단계로 구성된다. 첫 번째 단계는 소스 언어 음성 데이터를 무감독 음성 세그멘테이션 알고리즘으로 단어 수준의 세그먼트로 나누는 것이다. 두 번째 단계에서는 Speech2Vec를 이용해 각 세그먼트를 100 차원의 임베딩으로 변환한다. 동시에 목표 언어 텍스트 코퍼스에 Word2Vec을 적용해 동일 차원의 텍스트 임베딩을 만든다. 세 번째 단계는 두 임베딩 공간을 교차 모달 이중언어 사전(BDI) 기법으로 정렬하는 것으로, 여기서는 MUSE와 VecMap 두 가지 무감독 정렬 방법을 실험한다. 정렬된 공간을 통해 선형 변환 행렬 W를 학습하고, 새로운 음성 입력을 W 로 매핑한 뒤 최근접 이웃 탐색으로 초기 번역 후보를 얻는다. 하지만 이 초기 번역은 문맥을 전혀 고려하지 않기 때문에 의미적·형태소적 오류가 빈번하다. 이를 보완하기 위해 네 번째 단계에서 두 가지 후처리 모듈을 도입한다. 첫 번째는 5‑gram 언어 모델(LM)을 이용한 컨텍스트‑어웨어 빔 서치이다. 각 후보 단어의 임베딩 유사도와 LM 확률을 가중합(λLM=0.1)하여 전체 문장의 유창성을 높인다. 두 번째는 시퀀스 디노이징 자동인코더(DAE)이다. DAE는 번역 결과에 삽입·삭제·순서 뒤섞기와 같은 노이즈를 인위적으로 가하고, 이를 복원하도록 훈련된다. 이를 통해 단어 순서가 뒤바뀌거나 동의어가 사용된 경우에도 문법적으로 올바른 문장을 재구성한다. 실험은 영어‑프랑스어 데이터셋을 사용했다. Speech2Vec 학습에는 LibriSpeech(100시간) 음성을 사용했으며, 텍스트 임베딩은 프랑스어 위키피디아와 병렬 코퍼스 두 가지를 각각 Word2Vec으로 학습했다. 정렬 품질을 평가하기 위해 라플라시안 고유값 기반의 eigenvector similarity를 도입했으며, Speech2Vec‑Word2Vec 조합이 Audio2Vec‑Word2Vec보다 현저히 낮은 유사도 값을 보여 의미 기반 임베딩이 교차 정렬에 유리함을 확인했다. 성능 결과는 다음과 같다. 순수 정렬 기반 시스템은 BLEU 0~4 수준에 머물렀지만, LM을 추가하면 BLEU 5~9, DAE까지 적용하면 BLEU 11~12까지 상승하였다. 이는 감독 학습 기반 엔드‑투‑엔드 모델(대략 BLEU 12~14)과 거의 동등한 수준이다. 또한 VecMap이 MUSE보다 평균 성능이 더 안정적이며, 어려운 정렬 상황에서도 성공률이 높았다. 논문의 주요 기여는 (1) 완전 비지도 환경에서 교차 모달 이중언어 사전을 추출하고 정렬하는 방법, (2) 정렬된 임베딩을 기반으로 단어‑단위 번역을 수행하고 LM으로 문맥을 보강하는 전략, (3) DAE를 이용해 번역 후 문법 및 순서 오류를 교정하는 포스트‑프로세싱 기법을 결합함으로써, 라벨이 전혀 없는 저자원 언어쌍에서도 실용적인 음성‑텍스트 번역을 구현한 점이다. 향후 연구는 더 정교한 음성 세그멘테이션, 대규모 다언어 사전 학습, 그리고 Transformer 기반 무감독 번역 모델과의 통합을 통해 성능을 한층 끌어올릴 여지를 제공한다.

비지도 음성텍스트 번역을 위한 새로운 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기