주파수 영역 벨벳 노이즈와 그 변형을 이용한 새로운 보코더 excitation 및 전후 처리 기법

주파수 영역 벨벳 노이즈와 그 변형을 이용한 새로운 보코더 excitation 및 전후 처리 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 벨벳 노이즈를 주파수 영역에 적용한 FVN(Frequency domain Velvet Noise)과, 주파수‑종속 지속시간을 갖는 FFVN을 제안한다. 이들 신호는 전통적인 보코더의 excitation source와 all‑pass 필터의 임펄스 응답으로 활용될 수 있으며, “버즈(buzzy)” 현상을 크게 감소시키고, 데이터 증강 및 워터마킹 등 다양한 응용 가능성을 제공한다.

상세 분석

논문은 먼저 전통적인 벨벳 노이즈(OVN)의 정의와 생성 방식을 소개한다. OVN은 20 % 이하의 비영점(±1)만을 갖는 희소 신호로, 시간 축에서 무작위 위치에 단위 펄스를 배치하고, 두 개의 균등 난수 r₁, r₂를 이용해 펄스 위치와 부호를 결정한다. 이러한 구조는 고밀도(3 kHz 이상)일 때 가우시안 백색 잡음과 유사한 스펙트럼을 가지면서도 청감적으로 부드러운 특성을 제공한다.

주요 기여는 이 절차를 주파수 영역으로 확장한 FVN이다. DFT의 주기적 주파수 축에 OVN과 동일한 “벨벳” 배치를 적용하고, 각 중심 주파수 k_c에 대해 여섯 항 코사인 시리즈를 이용해 위상 변조 함수 w_p(k,B)를 설계한다. 여섯 항 시리즈는 사이드로브 레벨이 -114 dB, 감쇠율 -54 dB/oct 로 가장 우수한 시간‑주파수 국소화를 제공한다는 실험 결과가 제시된다. 위상 변조는 식 (3)–(8)에 따라 all‑pass 필터의 복소수 전이 함수를 구성하고, 역 DFT를 통해 임펄스 응답 h_fvn(n)을 얻는다. 이 임펄스는 짧은 지속시간(수 ms)과 랜덤 파형을 동시에 갖는 특수한 TSP(Time‑Stretched Pulse) 형태이며, 전체 신호의 파워 스펙트럼 변동이 없으므로 “버즈” 현상을 효과적으로 억제한다.

또한, 주파수‑종속 지속시간을 구현하기 위해 FFVN을 제안한다. 목표 지속시간 B_wtgt(f)를 정규화한 가중 함수 g(f)를 정의하고, 비선형 주파수 매핑 ν(f)=α∫₀^{f}g(u)du 를 수행한다. 매핑 후 일정 지속시간 B_worg을 갖는 FVN을 ν 축에 생성한 뒤, 원래 주파수 축으로 역변환함으로써 각 주파수 대역마다 서로 다른 임펄스 폭을 갖는 FFVN을 얻는다. 매핑 함수는 시그모이드 모델과 밴드‑와이즈 모델 두 가지 형태로 구현 가능하며, 파라미터 f_c, f_tr, B_k 등을 조정해 음성의 유성 마찰음 등 복합적인 스펙트럼 특성을 재현한다.

응용 측면에서는 (1) 보코더 출력에 FVN/FFVN 기반 all‑pass 필터를 적용해 “버즈” 감소 효과를 확인했으며, 필터 길이가 1 ms 이하일 경우 원음과 청감적으로 거의 구분되지 않는다는 실험 결과를 제시한다. (2) FVN을 excitation source 로 활용해 고정(frozen)과 무작위(shuffled) 두 버전을 교차 혼합함으로써 순수 펄스열(뚜렷한 피치)부터 백색 잡음까지 연속적인 변조가 가능한 신호를 생성한다. 위상 선형 보간을 통해 중간 단계의 음색을 부드럽게 전이시킬 수 있다. (3) 짧은 지속시간(≤5 ms)의 FVN을 각 피치 주기마다 삽입해 저음성(남성) 합성 시 랜덤 성분의 시간 변동을 구현한다. 마지막으로, all‑pass 필터의 임펄스가 TSP 형태이므로 역시간 컨볼루션을 통해 원본 신호 복원이 가능해 워터마킹 및 변조 검출에 활용 가능함을 제시한다.

전체적으로 본 연구는 벨벳 노이즈의 희소성, 주파수‑시간 국소성, 그리고 위상 조작이라는 세 가지 핵심 아이디어를 결합해, 기존 보코더의 excitation 설계와 후처리 문제를 통합적으로 해결하는 새로운 프레임워크를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기