음성 입력을 바로 번역하는 엔드투엔드 시퀀스‑투‑시퀀스 모델

본 논문은 “음성 → 텍스트” 번역을 기존의 두 단계(ASR + MT) 방식이 아닌, 하나의 엔드투엔드 시퀀스‑투‑시퀀스(Seq2Seq) 모델로 구현한다는 목표를 가지고 있다. 이를 위해 저자들은 LAS(Listen‑Attend‑Spell) 구조를 변형하여, 입력은 스페인어 전화 대화의 로그 멜 필터뱅크 특징(80채널, 25 ms 윈도우, 10 ms 홉)이며, 출력은 영어 문자 수준 토큰(총 90개)으로 설정하였다. 인코더는 두 개의 3×3 컨볼루션 레이어와 배치 정규화, 스트라이드 2×2를 통해 시간 차원을 4배 축소한 뒤, 양방향 컨볼루션 LSTM과 3개의 양방향 LSTM 레이어를 거쳐 512차원 표현을 만든다. 디코더는 4개의 단방향 LSTM 레이어와 어텐션 네트워크(숨은 층 128유닛)로 구성되며, 이전 출력 토큰 임베딩(64차원)과 어텐션 컨텍스트(512차원)를 결합해 다음 토큰을 예측한다. 어텐션은 입력 프레임과 출력 토큰 사이의 소프트 정렬을 제공하고, 번역 작업에서는 단어 순서가 바뀌는 현상이 나타나 어텐션이 넓은 구간에 걸쳐 퍼지는 특징을 보인다. 학습은 TensorFlow 기반으로 진행되었으며, 교사 강제 방식을 사용해 미니배치(64)로 비동기식 Adam 옵티마이저(β1=0.9, β2=0.999, ε=1e‑6)를 10개의 복제본에서 동시에 수행했다. 초기 학습률은 1e‑3이며, 1M 스텝 이후 10배 감소, L2 가중치 감쇠(1e‑6)와 20K 스텝부터 가우시안 가중치 노이즈(σ=0.125)를 적용했다. 디코더 깊이에 대한 실험에서는 1~5 레이어를 비교했을 때 4레이어가 가장 높은 BLEU(45.5)를 기록했으며, 이는 번역이 단순 음성 인식보다 더 복잡한 언어 모델링을 요구한다는 점을 시사한다. 또한, 디코더에서 길이 정규화(α=0.6)를 적용하면 BLEU가 0.6점 상승한다. 멀티태스크 학습에서는 동일 인코더를 공유하는 ‘one‑to‑many’ 구조를 채택했다. 즉, 번역 작업과 별도의 스페인어 ASR 작업을 동시에 학습시켜 인코더가 언어 간 중간 표현을 학습하도록 유도한다. 학습 단계의 75%는 번역, 25%는 ASR에 할당했으며, 공유 레이어 수를 조절한 결과 모든 LSTM 레이어를 공유했을 때 가장 높은 BLEU(46.2)를 얻었다. 이는 인코더가 음성을 언어에 독립적인 서브워드 수준 표현으로 변환하고, 각각의 디코더가 이를 목표 언어 혹은 소스 언어 텍스트로 재구성한다는 가설을 뒷받침한다. 성능 평가는 Fisher와 Callhome 두 스페인어‑영어 대화 데이터셋을 사용했다. ASR 모델은 기존 HMM‑GMM(41.3% WER) 및 DNN‑HMM(29.8% WER) 시스템보다 현저히 낮은 WER(25.7% / 44.5%)을 달성했다. 번역 파이프라인(ASR → NMT) 대비 엔드투엔드 모델은 BLEU 점수에서 1.8점(45.5 → 47.3) 상승했으며, 멀티태스크 적용 시 추가 1.4점(48.7)까지 끌어올렸다. 특히 Callhome 데이터는 화자 간 친밀도가 높아 잡음이 많음에도 불구하고, 멀티태스크 모델이 일관된 성능 향상을 보였다. 논문의 주요 기여는 다음과 같다. 1) 소스 언어 전사 없이도 음성을 직접 목표 언어 텍스트로 변환하는 엔드투엔드 Seq2Seq 모델을 구현, 2) 어텐션 기반 디코더가 내부 언어 모델 역할을 수행해 별도 언어 모델이 필요 없음을 입증, 3) 멀티태스크 학습을 통해 인코더 공유가 성능을 크게 향상시킴, 4) 실제 대화 데이터(Fisher/Callhome)에서 기존 파이프라인 대비 유의미한 BLEU 향상을 달성, 5) 저자원 언어 혹은 라벨링 비용이 높은 상황에서도 적용 가능한 실용적 프레임워크를 제공한다. 향후 연구 방향으로는 더 큰 규모의 다언어 데이터에 대한 확장, 음성‑텍스트 간의 직접적인 인터링구얼 표현 학습, 그리고 실시간 스트리밍 번역 시스템에의 적용이 제시된다.

음성 입력을 바로 번역하는 엔드투엔드 시퀀스‑투‑시퀀스 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기