경량형 변환기 기반 단일채널 음성 향상: FTF 구조와 적대 학습의 혁신
초록
본 논문은 경량화와 실시간 처리를 목표로, Frequency‑Time‑Frequency(FTF) 순차 변환기와 멀티스케일·멀티주기 판별기를 결합한 LCT‑GAN 모델을 제안한다. FTF 구조는 시간·주파수 의존성을 효율적으로 학습하면서 파라미터와 MAC 수를 크게 줄이고, 적대 학습은 추론 시 추가 비용 없이 성능을 향상시킨다. 실험 결과, DeepFilterNet2 대비 파라미터 6 % 수준, CCFNet+Lite 대비 9 %·10 % 절감하면서도 동일하거나 우수한 PESQ·STOI·SI‑SDR 등 객관 지표를 달성한다.
상세 분석
본 연구는 경량화된 음성 향상 모델 설계에서 두 가지 핵심 과제를 해결한다. 첫째, 변환기 기반의 시간·주파수 모델링이 제공하는 전역 의존성 학습 능력은 뛰어나지만, 기존 설계는 파라미터와 연산량이 급증한다는 단점이 있다. 저자들은 이를 극복하기 위해 Frequency‑Time‑Frequency(FTF) 스택을 도입한다. FTF는 먼저 주파수 변환기(F‑Transformer)로 동일 프레임 내 주파수 차원을 전파하고, 이어서 인과적 시간 변환기(T‑Transformer)로 과거 프레임 정보를 순차적으로 전달한다. 마지막으로 두 번째 주파수 변환기(F‑Transformer)에서 업데이트된 시간 정보를 다시 주파수 차원에 재분배한다. 이 “사다리형” 흐름은 전역 종속성을 충분히 포착하면서, 각 변환기 내부에서는 GRU와 Multi‑Head Attention(MHA)을 결합해 연산을 경량화한다. 특히 시간 변환기에서는 파라미터를 주파수 차원에 공유하고, 트라페zoidal 마스크를 적용해 인과성을 보장하면서 컨텍스트 길이를 1 초 이하로 제한한다. 결과적으로 기존 대규모 변환기 대비 MAC는 27 % 감소, 파라미터는 98 % 절감되는 효율성을 얻는다.
두 번째 핵심은 적대 학습이다. 생성기(G)인 LCT는 마스크 기반의 크기 추정에 집중하고, 복소수 출력 대신 압축된 IRM(압축 계수 c=0.3)을 사용해 학습 효율을 높인다. 훈련 단계에서 다중 스케일·다중 주기 판별기(D₁, D₂)를 도입해 스펙트럼 및 시간 도메인에서의 손실을 보강한다. 판별기는 학습 시에만 활성화되며, 추론 시에는 전혀 사용되지 않으므로 실시간 지연에 영향을 주지 않는다.
실험은 VoiceBank+Demand와 DNS‑3 두 데이터셋에서 수행되었다. Ablation 연구에서는 TT(시간‑시간), FF(주파수‑주파수), TF, FT, TFT, FTF 등 다양한 스택 구성을 비교했으며, FTF가 PESQ·STOI·SI‑SDR 등에서 가장 높은 점수를 기록했다. 또한 복소수 마스크(RI, MCS)와 같은 고비용 출력 방식은 성능 향상에 크게 기여하지 못함을 확인했다.
비교 실험에서는 DeepFilterNet2(파라미터 2.31 M, MAC 0.36 G)와 CCFNet+Lite(파라미터 0.16 M, MAC 0.39 G) 등을 기준으로 LCT‑GAN(파라미터 0.14 M, MAC 0.35 G)이 비슷하거나 더 나은 PESQ·CSIG·CBAK·COVL·STOI·SI‑SDR을 달성했다. 특히 PCS(Perceptual Contrast Stretching) 기법을 추가한 LCT‑GAN+PCS는 PESQ에서 DeepFilterNet3와 동등한 수준을 보이며, 전체적인 품질 점수에서도 최고 수준을 기록했다.
요약하면, FTF 구조는 변환기 기반 전역 의존성 학습을 경량화된 형태로 구현하고, 적대 학습은 추론 비용 없이 성능을 끌어올린다. 이는 실시간 음성 통신, 모바일 어시스턴트, IoT 디바이스 등 제한된 연산 자원을 가진 환경에서 고품질 음성 향상을 구현할 수 있는 실용적인 설계 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기