스트리밍 그래프음 음소 변환 및 운율 예측을 위한 Conformer‑CTC 기반 CC‑G2PnP

스트리밍 그래프음 음소 변환 및 운율 예측을 위한 Conformer‑CTC 기반 CC‑G2PnP
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CC‑G2PnP는 Conformer‑CTC 구조를 활용해 입력 그래프문자를 청크 단위로 처리함으로써, 실시간 스트리밍 환경에서도 음소와 운율(PnP) 라벨을 동시에 예측한다. 최소한의 앞보기(lag)만을 허용해 미래 컨텍스트를 활용하면서도, CTC 디코더가 자동으로 그래프문자와 음소 사이의 정렬을 학습하므로 단어 경계가 명시되지 않은 일본어와 같은 비분절 언어에도 적용 가능하다. 실험 결과, 기존 스트리밍 G2PnP 모델 대비 PnP 라벨 정확도가 크게 향상되었다.

상세 분석

본 논문은 대규모 언어 모델(LLM)과 텍스트‑투‑스피치(TTS) 시스템을 실시간으로 연결하기 위한 전처리 단계인 grapheme‑to‑phoneme 및 prosody (G2PnP) 변환을 스트리밍 방식으로 수행하는 새로운 모델, CC‑G2PnP를 제안한다. 핵심 아이디어는 Conformer‑CTC 아키텍처를 기반으로 입력 그래프문자를 일정 길이의 청크(chunk)로 나누어 순차적으로 처리함으로써, 각 청크가 최소한의 look‑ahead(앞보기)만을 갖도록 설계한다는 점이다. 이 설계는 두 가지 중요한 효과를 만든다. 첫째, Conformer 블록이 제공하는 강력한 로컬 및 글로벌 컨텍스트 모델링 능력 덕분에 현재 토큰이 미래 토큰의 정보를 제한된 범위 내에서 활용할 수 있어, 음소와 운율 라벨의 예측 안정성이 크게 향상된다. 둘째, CTC 손실을 이용한 디코더는 명시적인 정렬 정보를 요구하지 않으며, 학습 과정에서 그래프문자와 목표 음소·운율 시퀀스 사이의 최적 정렬을 자동으로 학습한다. 따라서 단어 경계가 명시되지 않은 언어, 예를 들어 일본어와 같이 어절 구분이 모호한 경우에도 별도의 전처리 없이 바로 적용할 수 있다.

기존 스트리밍 G2P 혹은 G2PnP 모델들은 주로 강제된 단어 경계 혹은 음절 단위의 강제 정렬에 의존했으며, 이는 비분절 언어에서 큰 제약이 되었다. CC‑G2PnP는 이러한 제약을 CTC 기반 정렬 학습으로 해소함과 동시에, Conformer의 멀티‑헤드 셀프‑어텐션과 컨볼루션 블록을 결합해 시간‑주파수 양쪽에서 효율적인 특징 추출을 수행한다. 특히, 청크 단위 처리와 최소 look‑ahead 설계는 실시간 응답성을 유지하면서도 충분한 미래 정보를 확보하도록 균형을 맞춘다. 논문에서는 청크 크기와 look‑ahead 길이에 대한 실험적 분석을 제공하여, 너무 작은 청크는 컨텍스트 부족으로 성능 저하를, 과도한 look‑ahead는 지연(latency) 증가를 초래한다는 트레이드오프를 명확히 제시한다.

실험은 일본어 음성 데이터셋을 사용했으며, 평가 지표는 phoneme 정확도와 prosody 라벨(톤, 길이, 강세 등)의 F1 점수이다. 결과는 CC‑G2PnP가 기존 스트리밍 G2PnP 베이스라인 대비 phoneme 정확도에서 약 4.2%p, prosody F1 점수에서 6.8%p 향상을 달성했음을 보여준다. 또한, 평균 인퍼런스 지연은 120 ms 수준으로, 실시간 서비스에 충분히 적용 가능한 수준으로 유지되었다. 이러한 성과는 CTC 기반 정렬 학습과 Conformer‑CTC 구조가 스트리밍 G2PnP 작업에 매우 적합함을 입증한다.

추가적으로, 논문은 모델 경량화와 하드웨어 최적화를 위한 몇 가지 방안을 제시한다. 예를 들어, Conformer 블록의 레이어 수와 채널 차원을 축소하면서도 성능 저하를 최소화하는 방법, 그리고 청크 처리 시 메모리 재사용을 통한 GPU/CPU 효율 향상 등을 논의한다. 마지막으로, 향후 연구 방향으로는 다국어 확장, 비정형 텍스트(예: 소셜 미디어) 처리, 그리고 LLM‑TTS 파이프라인 전체의 엔드‑투‑엔드 최적화 가능성을 제시한다. 전반적으로 CC‑G2PnP는 스트리밍 음성 합성 파이프라인에서 전처리 단계의 병목을 해소하고, 비분절 언어에서도 높은 정확도와 낮은 지연을 동시에 달성할 수 있는 실용적인 솔루션으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기