정렬 없는 동시 음성 번역의 새로운 패러다임
초록
Hibiki‑Zero는 단어 수준 정렬 데이터 없이도 실시간 음성‑음성 번역을 가능하게 하는 모델이다. 문장 수준 정렬 데이터만으로 사전 학습한 뒤, BLEU 기반 보상을 이용한 강화학습(GRPO)으로 지연 시간을 최소화하면서 번역 품질을 유지한다. 다섯 개 언어‑영어 쌍에서 정확도·지연·음성 자연스러움 모두 기존 최고 수준을 기록했으며, 1 000시간 미만의 데이터로 새로운 입력 언어에도 빠르게 적응한다.
상세 분석
본 논문은 동시 음성‑음성 번역(S2ST) 분야에서 가장 큰 병목 중 하나인 단어 수준 정렬 데이터의 부재 문제를 근본적으로 해결한다. 기존 연구들은 자동 정렬 알고리즘이나 인간 주석에 의존했지만, 이는 언어마다 다른 구문 구조와 비단조적 의존성을 반영하기에 한계가 있었다. Hibiki‑Zero는 이러한 전제조건을 완전히 배제하고, 문장 수준 정렬만으로 사전 학습을 수행한다는 점에서 혁신적이다.
먼저, 저자들은 Mimi 코덱을 활용해 입력 및 출력 음성을 저해상도 토큰 시퀀스로 변환한다. 이때 첫 번째 양자화 레벨은 의미 토큰, 이후 레벨은 점진적으로 정밀한 음향 토큰을 제공한다. RQ‑Transformer 구조는 시간 축과 양자화 축을 동시에 모델링함으로써, 다중 스트림(음성, 의미, 텍스트) 데이터를 효율적으로 처리한다. 특히, 텍스트 스트림을 “Inner Monologue” 형태로 삽입해 음성 번역 과정에서 중간 텍스트를 생성하도록 함으로써, 강화학습 단계에서 BLEU 기반의 프로세스 보상을 계산할 수 있게 한다.
강화학습 단계에서는 GRPO(Generalized Reward‑Based Policy Optimization)를 변형하여 적용한다. 기존의 복합 보상 설계와 달리, 본 연구는 단일 BLEU 보상 함수를 사용한다. 구체적으로, 각 프레임 t에서 현재까지 생성된 텍스트와 정답 텍스트 간 BLEU 점수를 α와 1‑α의 가중합으로 결합하고, 최종 출력까지의 BLEU 점수도 포함한다. 이렇게 정의된 프로세스 보상은 프레임별 정규화 후 누적되어 어드밴티지로 변환되고, PPO‑형식의 클리핑 손실에 적용된다. KL 정규화 없이 메모리 사용량을 크게 줄였으며, 보상 해킹이나 불안정성 문제도 최소화했다.
실험에서는 5개의 X‑to‑English 시나리오(예: 일본어‑영어, 스페인어‑영어 등)에서 기존 최첨단 모델을 능가하는 결과를 보였다. 번역 정확도(BLEU), 평균 라티시(Avg‑AL), 화자 정체성 보존(Speaker‑ID), 그리고 음성 자연스러움(MOS) 모두 개선되었다. 특히, 라티시 감소율이 30% 이상이며, 화자 보존 점수는 0.9에 가까운 높은 값을 기록했다. 또한, 새로운 언어(예: 한국어) 추가 실험에서 1 000시간 미만의 음성 데이터만으로도 경쟁력 있는 성능을 달성했으며, 이는 데이터 효율성 측면에서 큰 의미를 가진다.
마지막으로, 저자들은 45시간 규모의 다국어 동시 ST 벤치마크와 모델 가중치, 추론 코드를 공개한다. 이는 연구 재현성을 높이고, 향후 다양한 언어와 도메인에 대한 확장을 촉진할 것으로 기대된다. 전체적으로, Hibiki‑Zero는 정렬 데이터 의존성을 없애고, 강화학습을 통한 지연 최적화를 성공적으로 구현함으로써 동시 음성 번역 시스템의 설계·학습 파이프라인을 크게 단순화하고, 실용적 확장성을 확보한 중요한 진전이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기