시간과 주파수 재귀를 활용한 U넷 기반 음성 향상

본 논문은 기존 U‑Net 구조의 한계를 극복하기 위해 컨볼루션 레이어와 양방향 재귀 레이어를 결합한 RC‑Pair 블록을 도입한다. 시간 축과 주파수 축을 번갈아 가며 컨텍스트를 확대함으로써 리셉티브 필드가 크게 늘어나면서도 파라미터 수는 크게 증가하지 않는다. 제안 모델은 TIMIT 음성에 NOISEX‑92 잡음을 0 dB SNR로 섞은 데이터셋에서 SDR, SIR, STOI 등 3가지 평가 지표에서 기존 U‑Net 및 전통적인 FCLN·R…

저자: Tomasz Grzywalski, Szymon Drgas

시간과 주파수 재귀를 활용한 U넷 기반 음성 향상
**1. 서론 및 배경** 단일 채널 음성 향상은 잡음이 섞인 음성을 깨끗한 음성으로 복원하는 문제로, 청각 보조기기, 음성 인식 전처리 등 다양한 응용 분야에서 핵심적인 역할을 한다. 기존 딥러닝 기반 방법은 크게 두 가지 접근으로 나뉜다. 첫 번째는 noisy spectrogram을 직접 clean spectrogram으로 매핑하는 **맵핑 기반**이며, 두 번째는 ideal mask(예: IBM, IRM)를 예측해 이를 적용하는 **마스킹 기반**이다. 최근에는 컨볼루션 신경망(CNN)과 U‑Net 같은 인코더‑디코더 구조가 좋은 성능을 보였지만, max‑pooling에 의해 시간·주파수 해상도가 손실되는 문제가 있다. 이를 보완하기 위해 스킵 연결을 도입한 U‑Net이 제안되었고, 이후 다양한 변형이 연구되었다. 그러나 리셉티브 필드 확대와 파라미터 효율성 사이의 균형을 맞추는 것이 여전히 과제로 남아 있다. **2. 제안 모델 설계** 본 논문은 이러한 한계를 극복하기 위해 **RC‑Pair**(Recurrent‑Convolutional pair) 블록을 도입한다. RC‑Pair는 (i) 2‑D 컨볼루션(3×3, ELU, 배치 정규화)과 (ii) 양방향 가중치 공유 재귀(BWR) 레이어를 순차적으로 연결한다. BWR 레이어는 GRU 기반이며, 시간 축(T) 혹은 주파수 축(F) 중 하나에 대해 모든 채널에 동일한 가중치를 공유한다. 이렇게 하면 파라미터 수는 적게 유지하면서도 전체 스펙트로그램에 걸친 장기 의존성을 학습할 수 있다. U‑Net 구조는 총 L=10개의 Processing Block(PB)으로 구성된다. 인코더 단계에서는 PB1~PB5가 순차적으로 적용되고, 디코더 단계에서는 PB6~PB10이 역순으로 적용된다. 각 PB는 입력 피처맵에 대해 RC‑Pair를 적용하고, 디코더에서는 해당 레벨의 인코더 출력과 concatenate하여 스킵 연결을 수행한다. 중요한 설계 포인트는 **시간 축과 주파수 축을 번갈아 가며 BWR 레이어를 배치**함으로써, 모든 레벨에서 서로 다른 차원의 컨텍스트가 확대된다는 점이다. 이를 ‘ALL RC’와 ‘ODD RC’ 두 변형으로 구현했으며, ALL RC는 모든 PB에 RC‑Pair를, ODD RC는 홀수 레벨에만 적용한다. **3. 실험 설정** - **데이터**: TIMIT 음성 (8 kHz) 2000개 훈련, 192개 테스트 + NOISEX‑92 잡음(babble, factory) 0 dB SNR - **전처리**: 25 ms 프레임, 10 ms hop, 512‑FFT → 64‑채널 멜 필터뱅크 → 로그 스케일 - **베이스라인**: (1) FCLN‑IRM (4층 Fully Connected, 512 뉴런, 슬라이딩 윈도우) (2) RNN‑IRM (4층 Bi‑LSTM, 1024 유닛) (3) 전통적인 U‑Net 변형(C48, C64, MP 포함) - **학습**: Adam, 100 epoch, 배치 15, 초기 학습률 0.001 (RC‑Pair 모델은 0.01), 학습률 0.99 decay, 10% 검증 셋 사용, 최종 모델은 검증 SDR 기준 선택 - **평가 지표**: SDR, SIR, SAR (BSS‑Eval), STOI **4. 결과 및 분석** | 모델 | SDR (factory) | SIR | SAR | STOI | |------|----------------|-----|-----|------| | FCLN‑IRM | 7.4 | 12.8 | 8.9 | 0.74 | | RNN‑IRM | 7.5 | 12.2 | 9.3 | 0.76 | | U‑Net C48 | 7.9 | 14.7 | 8.9 | 0.73 | | U‑Net C64 | 8.0 | 14.2 | 9.1 | 0.73 | | U‑Net ALL RC IRM | 8.2 | 14.8 | 9.3 | 0.80 | | **U‑Net ALL RC** | **8.4** | **15.5** | **9.4** | **0.81** | | **U‑Net ODD RC** | **8.4** | **15.0** | **9.5** | **0.81** | babble 잡음에서도 유사한 경향을 보이며, 특히 ALL RC와 ODD RC가 기존 U‑Net 대비 SDR 0.2~0.7 dB, STOI 0.05~0.06 포인트 향상한다. SAR(아티팩트)에서는 전통적인 U‑Net이 약간 우수했지만, 전반적인 잡음 억제와 음성 보존 측면에서는 RC‑Pair 기반 모델이 우수함을 확인했다. **5. 결론** - RC‑Pair를 이용해 시간·주파수 양축에서 장기 컨텍스트를 효율적으로 확장함으로써, max‑pooling 없이도 충분히 넓은 리셉티브 필드를 확보했다. - 파라미터 증가가 미미함에도 불구하고 SDR, SIR, STOI에서 현저한 개선을 달성했다. - 맵핑 기반(target‑mapping) 접근이 마스크 기반보다 전반적으로 더 좋은 성능을 보였으며, 이는 U‑Net 구조가 고해상도 정보를 보존하는 데 강점이 있음을 시사한다. - 향후 다채널 입력, 실시간 처리, 다양한 잡음 환경에 대한 일반화 연구가 필요하다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기