에포크 동기화 겹침합을 이용한 고품질 실시간 음성 시간 피치 변환

본 논문은 음성 신호의 글로탈 폐쇄 순간(에포크)을 기준으로 프레임을 정렬하고 겹침합(overlap‑add)하는 새로운 ESOLA 기법을 제안한다. 시간 스케일링은 프레임 간 겹침을 조절해 정확히 수행하고, 피치 스케일링은 시간‑스케일링된 신호를 재샘플링한다. 에포크 정보를 최소 비트에 삽입해 한 번만 추출하면 여러 스케일링에 재사용 가능하도록 하였으며, 기존 PSOLA·SOLA·WSOLA 대비 높은 음질과 3배 이상의 연산 속도 향상을 입증한…

저자: Sunil Rudresh, Aditya Vasisht, Karthika Vijayan

에포크 동기화 겹침합을 이용한 고품질 실시간 음성 시간 피치 변환
본 논문은 음성 신호의 시간 및 피치 스케일링을 위한 새로운 알고리즘인 ESOLA(Epoch‑Synchronous Overlap‑Add)를 제안한다. 서론에서는 시간·피치 변환이 음성 합성, 보청기, 음성 변환 등 다양한 응용 분야에서 필수적이며, 기존 방법들은 연산 복잡도와 품질 측면에서 한계가 있음을 지적한다. 기존 기법은 크게 피치‑블라인드(OLA, SOLA, WSOLA 등)와 피치‑동기화(PSOLA, LP‑PSOLA 등) 두 부류로 나뉜다. OLA는 단순하지만 피치 불일치로 왜곡이 심하고, SOLA는 상관 함수를 이용해 프레임을 정렬하지만 가변 합성 프레임 길이와 높은 연산 비용(O(N²))이 문제다. PSOLA는 정확한 피치 마크가 필요하지만 마크 추출 오류가 스펙트럼·위상 불연속을 초래한다. ESOLA는 이러한 문제를 해결하기 위해 음성의 기본 주기와 직접 연관된 글로탈 폐쇄 순간(GCI), 즉 에포크를 정렬 기준으로 채택한다. 에포크는 화자마다 일정한 주기를 유지하므로, 에포크를 기준으로 프레임을 맞추면 피치와 위상이 자연스럽게 일치한다. 논문에서는 ZFR(Zero‑Frequency Resonator) 기반 에포크 검출 방법을 사용한다. ZFR은 신호를 두 번 적분하고 평균을 빼는 과정을 통해 저주파 성분을 강조하고, 양의 영점 교차점을 에포크로 식별한다. 이 과정은 O(N) 복잡도로 실시간 구현이 가능하다. ESOLA의 시간 스케일링 절차는 다음과 같다. 먼저 음성을 50 % 겹침을 갖는 짧은 프레임으로 나눈다. 시간 스케일링 비율 α에 따라 분석 프레임 시프트 Sa를 조정하고, 인접 프레임을 에포크 위치에 맞추어 오프셋 k_i를 계산한다. 이후 고정된 합성 프레임 시프트 Ss=α·Sa를 적용해 정확한 시간 확대·축소를 수행한다. 프레임 길이는 최소 3~4개의 피치 주기를 포함하도록 설계되어 에포크 정렬이 안정적이다. 피치 스케일링은 시간‑스케일링된 신호를 원하는 샘플링 비율 β로 재샘플링함으로써 간단히 구현한다. 즉, 피치와 시간 변환을 별개의 단계로 분리하여 구현 복잡도를 크게 낮춘다. 특히 논문은 “에포크 임베딩”이라는 새로운 개념을 도입한다. 에포크 정보를 각 샘플의 최하위 비트(LSB)에 기록함으로써, 한 번의 에포크 추출 후에는 추가적인 신호 분석 없이도 언제든지 에포크 정보를 바로 조회할 수 있다. 이는 다중 스케일링이 요구되는 실시간 시스템에서 메모리와 연산을 크게 절감한다. 실험에서는 다양한 스케일링 비율(0.5 ~ 2.0)에서 주관적 청취 테스트와 객관적 SNR, PESQ 등을 이용해 기존 PSOLA, SOLA, WSOLA, SOLAFS와 비교하였다. ESOLA는 전반적으로 가장 높은 청취 품질과 intelligibility를 보였으며, 특히 높은 압축 비율에서도 자연스러운 음성을 유지했다. 연산 측면에서는 프레임당 O(N log N) 복잡도로 SOLA·WSOLA 대비 약 3배 빠른 처리 속도를 기록했으며, 에포크 임베딩을 활용한 경우 추가 연산이 거의 필요하지 않았다. 논문의 한계로는 에포크 검출이 강한 배경 잡음이나 비정상적인 발성에서 정확도가 떨어질 수 있다는 점, 현재 구현이 16‑bit PCM에 국한되어 있어 고해상도 오디오나 멀티채널 확장에 추가 연구가 필요하다는 점을 언급한다. 결론적으로 ESOLA는 에포크를 물리적 기준으로 활용해 시간·피치 변환의 정확성, 음질, 실시간 처리 가능성을 동시에 달성한 혁신적인 프레임워크이며, 에포크 임베딩을 통한 효율적인 구현은 실제 응용 시스템에 큰 장점을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기