다국어·장시간 음성 정렬을 위한 비자동회귀 LLM 기반 강제 정렬기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLM‑ForcedAligner는 음성 대형 언어 모델을 활용해 강제 정렬을 슬롯‑채우기 문제로 전환한다. 타임스탬프를 이산 인덱스로 표현하고, 텍스트에 특수 토큰(

상세 분석

본 논문은 기존 강제 정렬(Foreced Alignment, FA) 방법이 언어별 음소 사전·HMM 구조에 의존해 다국어 확장에 한계가 있고, 특히 장시간 음성에서는 누적된 시간 편차가 크게 나타나는 문제점을 지적한다. 이러한 한계를 극복하기 위해 저자들은 대규모 멀티모달 언어 모델인 Speech‑LLM(SLLM)의 장점—다언어 텍스트 이해와 긴 시퀀스 처리 능력—을 FA에 직접 적용한다. 하지만 전통적인 next‑token 예측 방식은 비단어 순서가 비단조적이거나 과도한 추론 지연을 초래한다. 따라서 저자들은 FA를 “슬롯‑채우기” 문제로 재정의한다. 구체적으로, 각 단어·문자에 시작·종료 타임스탬프를 나타내는 특수 토큰(

다국어·장시간 음성 정렬을 위한 비자동회귀 LLM 기반 강제 정렬기

초록

상세 분석

댓글 및 학술 토론

의견 남기기