빠른 교차모달 검색 기반 동시 음성 번역 RASST

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RASST는 스트리밍 음성 입력에 대해 슬라이딩 윈도우 방식의 경량화된 음성‑텍스트 검색기를 결합하고, 검색된 용어 힌트를 Speech LLM에 전달해 동시 번역 시 전문 용어 정확도를 크게 향상시킨다. 합성 데이터와 세 가지 검색 패턴을 이용해 모델이 언제, 어떻게 용어를 활용할지 학습하도록 설계했으며, 실험에서 BLEU 3점 상승·용어 정확도 16% 개선을 달성했다.

상세 분석

본 논문은 동시 음성 번역(SST)에서 도메인 특화 용어 번역이 여전히 취약한 문제를 해결하기 위해, 검색 기반 비파라메트릭 지식을 실시간 번역 파이프라인에 직접 삽입하는 RASST 프레임워크를 제안한다. 핵심 기술은 세 부분으로 나뉜다. 첫째, 경량화된 교차모달 검색기 설계이다. 텍스트 용어는 BGE‑M3 인코더로 고정 차원의 임베딩을 만들고, 음성은 Qwen3‑Omni Audio Transformer에 풀링·선형 투사·ℓ2 정규화를 적용해 동일 차원으로 매핑한다. 슬라이딩 윈도우(길이 W, 스트라이드 δ) 방식으로 스트리밍 음성을 지속적으로 인코딩하고, FAISS 기반 코사인 유사도 검색으로 Top‑K₁ 후보를 추출한다. 새 음성 청크가 도착하면 해당 청크에 포함된 모든 윈도우의 후보를 집계해 Top‑K₂ 용어를 최종 선택한다. 이 설계는 전체 음성 히스토리를 매번 재인코딩하지 않아 연산량을 크게 줄이며, 윈도우 기반이 전체 프리픽스 대비 높은 리콜을 제공한다는 실험적 근거가 있다.

둘째, 검색기 학습을 위한 데이터 합성이다. GigaSpeech 음성 데이터에 Montreal Forced Aligner를 적용해 단어 타임스탬프를 얻고, spaCy 명사구 추출기로 용어 후보를 만든다. 1.92 s 길이의 윈도우를 0.96 s 간격으로 슬라이드하면서, 윈도우 안에 완전히 포함된 명사구와 매칭시켜 (음성 윈도우, 용어) 쌍을 만든다. 이렇게 만든 4 M쌍을 이용해 다중 양성 InfoNCE 손실을 최적화한다. 양성은 하나의 윈도우에 여러 용어가 매핑될 수 있음을 반영하고, 배치 내 음성‑텍스트 부정 샘플과 대비시켜 임베딩 정렬을 촉진한다. LoRA를 활용해 음성·텍스트 인코더를 효율적으로 파인튜닝한다.

셋째, Speech LLM이 검색 결과를 적절히 활용하도록 하는 학습 전략이다. 기존 InfiniSST와 유사하게 청크‑단위 번역 시퀀스를 합성하지만, 여기서는 세 가지 검색 시나리오(정확한 용어+하드 네거티브, 용어 없음, 완전 오류)를 혼합해 모델이 검색 오류에 강인하도록 만든다. 각 청크마다 최대 20개의 용어 힌트를 제공하고, 하드 네거티브는 검색 엔코더가 실제로 뽑아낸 상위‑K₁ 후보 중 일부를 사용한다. 이렇게 구성된 데이터에 LoRA와 표준 교차 엔트로피 손실을 적용해 Speech LLM을 파인튜닝한다. 중요한 점은 번역 토큰이 음성 청크보다 지연되어 생성되므로, 모델이 “용어가 음성에 등장했지만 아직 번역되지 않은 경우”와 “용어가 이미 번역된 경우”를 구분해 언제 삽입할지 학습한다는 것이다.

실험은 ACL 60/60 개발 세트(En→Zh/De/Ja)에서 수행했으며, 두 종류의 용어 사전(공식 Glossary와 논문 추출 Glossary)을 사용해 용어 정확도와 BLEU를 평가했다. RASST는 기본 Speech‑LLM 대비 BLEU가 평균 2.7~~3.0점 상승하고, 용어 정확도는 10~~16%p 향상했다. 지연(latency) 측면에서는 슬라이딩 윈도우와 경량 검색 덕분에 전체 연산량이 16% 이하로 증가했으며, 실시간 번역 요구를 만족한다. Ablation 연구에서는 (1) 검색기 없이 LLM만 사용했을 때 용어 정확도가 급락하고, (2) 하드 네거티브를 제외한 학습에서는 검색 오류에 취약해 BLEU가 감소함을 확인했다.

이 논문은 동시 번역 시스템에 비파라메트릭 지식을 효율적으로 주입하는 방법을 제시함으로써, 실시간 스트리밍 환경에서도 도메인 특화 용어 번역을 크게 개선할 수 있음을 증명한다. 향후 연구는 다중 언어·다중 도메인 용어 사전 확장, 검색 결과의 신뢰도 기반 가중치 적용, 그리고 더 복잡한 인터랙티브 인터프리터 시나리오와의 통합을 탐색할 여지를 남긴다.

빠른 교차모달 검색 기반 동시 음성 번역 RASST

초록

상세 분석

댓글 및 학술 토론

의견 남기기