복소 스펙트럼 강화와 다중 지표 학습을 위한 CNN
초록
본 논문은 복소수 형태의 스펙트럼(RI) 직접 복원을 통해 위상 추정 문제를 해결하고, RI 스펙트럼과 로그 파워 스펙트럼(LPS) 두 목표를 동시에 최적화하는 다중 지표 학습(MML) 방식을 제안한다. 제안된 CNN 모델은 표준화된 평가 지표인 SSNR과 LSD에서 기존 방법들을 능가한다.
상세 분석
이 연구는 현재 음성 강화 분야에서 두 가지 주요 한계, 즉 위상 정보 추정의 어려움과 단일 손실 함수가 여러 품질 지표를 동시에 반영하지 못한다는 점을 정확히 짚어낸다. 기존 대부분의 방법은 magnitude‑only 접근을 사용해 복원된 스펙트럼의 위상 정보를 무시하거나, 별도의 위상 추정 모듈을 추가해 복잡성을 높이는 경향이 있었다. 저자는 복소 스펙트럼, 즉 실수‑허수(RI) 형태를 직접 예측하도록 설계된 2‑D 컨볼루션 신경망(CNN)을 도입함으로써, 복원된 RI 값 자체를 역변환해 바로 시간 도메인 파형을 재구성한다. 이는 위상 추정 오류를 최소화하고, 복소수 연산을 통해 보다 정밀한 신호 복원을 가능하게 한다.
또한, LPS는 RI 스펙트럼의 제곱합에 로그를 취한 형태이므로, RI 복원과 LPS 복원을 동시에 최적화하면 두 가지 대표적인 객관적 품질 지표인 세그먼트 신호‑대‑노이즈 비율(SSNR)과 로그 스펙트럼 왜곡(LSD)을 동시에 개선할 수 있다. 이를 위해 논문은 두 손실을 가중합한 통합 손실 함수를 정의하고, 이를 “다중 지표 학습(Multi‑Metrics Learning, MML)”이라 명명한다. 손실 가중치는 실험을 통해 경험적으로 설정했으며, 학습 과정에서 두 손실이 균형을 이루도록 조정한다.
네트워크 구조는 입력으로 복소 스펙트럼(실수와 허수 채널을 각각 1채널씩) 전체를 받아, 여러 층의 2‑D 컨볼루션과 배치 정규화, ReLU 활성화를 거쳐 동일한 차원의 RI 출력과 LPS 출력 두 개의 브랜치를 만든다. 특히, 스킵 연결(skip connection)을 활용해 저주파와 고주파 정보를 효과적으로 전달하고, 작은 커널 사이즈(3×3)를 여러 번 겹쳐서 넓은 수용 영역을 확보한다. 이러한 설계는 파라미터 수를 크게 늘리지 않으면서도 복잡한 시간‑주파수 패턴을 학습하는 데 유리하다.
실험은 공개된 NOISEX‑92와 WSJ0 데이터셋을 사용해 다양한 SNR 조건(‑5 dB20 dB)에서 수행되었다. 평가 지표는 SSNR, PESQ, STOI, LSD 등 4가지가 사용됐으며, 제안 모델은 기존 magnitude‑only CNN, 복소‑U‑넷, 그리고 전통적인 Wiener 필터와 비교해 모든 지표에서 평균 0.3 dB1.2 dB 수준의 개선을 보였다. 특히, 위상 복원 효과가 두드러져 PESQ와 STOI에서 눈에 띄는 향상이 관찰되었다.
한계점으로는 가중치 설정이 데이터에 민감하고, 복소 스펙트럼을 직접 예측함에 따라 메모리 요구량이 증가한다는 점을 들 수 있다. 향후 연구에서는 가중치 자동 튜닝 메커니즘 도입과 경량화된 모델 설계, 그리고 실시간 처리 가능성을 위한 스트리밍 구조 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기