시각·청각 융합 음성 향상을 위한 학습 목표와 손실 함수 종합 비교

본 연구는 시각 정보를 활용한 딥러닝 기반 음성 향상(AV‑SE) 시스템에서, 학습 목표(예측 대상)와 손실 함수의 선택이 성능에 미치는 영향을 체계적으로 조사한다. 직접 마스크를 추정하는 방식이 전반적인 음성 품질(PESQ)과 인식 가능도(ESTOI)에서 가장 우수했으며, 로그 스펙트럼을 직접 예측하는 모델도 품질 면에서 경쟁력을 보였다.

저자: Daniel Michelsanti, Zheng-Hua Tan, Sigurdur Sigurdsson

본 논문은 시각 정보를 활용한 딥러닝 기반 음성 향상(AV‑SE) 시스템에서 학습 목표와 손실 함수의 선택이 최종 성능에 미치는 영향을 최초로 체계적으로 조사한다. 기존 연구에서는 주로 오디오 전용(AO‑SE) 분야에서 다양한 목표(스펙트럼, 마스크)와 손실 함수(시간‑도메인 L2, 주파수‑도메인 L2, 로그 손실 등)가 제안되었지만, 시각 정보가 결합된 상황에서는 이러한 선택이 동일하게 적용될지 여부가 불분명했다. 저자는 이를 해결하기 위해 먼저 “직접 매핑(Direct Mapping, DM)”, “간접 매핑(Indirect Mapping, IM)”, “마스크 근사(Mask Approximation, MA)”라는 세 가지 학습 패러다임을 정의하고, 각 패러다임에 대해 다섯 가지 스펙트럼 기반 손실 함수(STSA, LSA, MSA, LMSA, PSSA)를 조합한 총 15가지 모델을 구현하였다. DM은 네트워크가 깨끗한 스펙트럼 자체를 직접 예측하도록 학습한다. 여기서 STSA‑DM은 선형 스펙트럼을, LSA‑DM은 로그 스펙트럼을, MSA‑DM은 멜 스케일 스펙트럼을, LMSA‑DM은 로그 멜 스펙트럼을, PSSA‑DM은 위상 차이를 고려한 스펙트럼을 목표로 한다. IM은 네트워크가 마스크를 출력하도록 하고, 그 마스크를 잡음 스펙트럼에 곱해 복원된 스펙트럼과 깨끗한 스펙트럼 사이의 L2 손실을 최소화한다. MA는 마스크 자체를 목표로 삼아, 이상 진폭 마스크(IAM)와 위상 민감 마스크(PSM)와의 차이를 최소화한다. 실험은 영국의 GRID 코퍼스를 사용하였다. 34명의 화자 중 25명을 학습, 2명을 검증, 나머지는 테스트(보는 화자와 보지 않는 화자)로 구성하였다. 잡음은 버스, 카페, 거리, 보행자, 잡음, 스피치‑쉐이프드 등 6가지 유형을 사용했으며, 훈련 시 –20 dB부터 20 dB까지 9단계의 SNR을 적용하였다. 오디오는 16 kHz로 다운샘플링하고 640‑point STFT(윈도우 640, 홉 160)를 적용해 321개의 양수 주파수 bin을 사용하였다. 비디오는 입술 영역을 128 × 128 픽셀로 크롭하고 5프레임(200 ms)씩 묶어 입력하였다. 네트워크는 영상 인코더(6개의 Conv‑LeakyReLU‑BatchNorm‑MaxPool), 오디오 인코더(6개의 Conv‑LeakyReLU‑BatchNorm), 피처 융합(3개의 Fully‑Connected), 디코더(6개의 Transposed Conv)로 구성되었으며, 오디오 인코더와 디코더 사이에 3개의 스킵 연결을 두어 정보 손실을 최소화하였다. 출력층은 목표가 양수(스펙트럼, IAM 등)일 경우 ReLU, 마스크가 음수값을 가질 수 있는 PSM 등은 선형 활성화를 사용하였다. 학습은 Adam optimizer(초기 학습률 4e‑4)와 배치 크기 64로 진행했으며, 검증 손실이 상승하면 학습률을 절반으로 감소시키고, 10 epoch 연속 개선이 없으면 조기 종료하였다. 성능 평가는 PESQ(음성 품질)와 ESTOI(인텔리전스) 두 지표를 사용했으며, 모든 모델은 오디오 전용(AO) 대비 시각 정보를 포함한 A/V 모델에서 평균 0.2~0.4 dB PESQ와 0.03~0.05 ESTOI 향상을 보였다. 구체적인 결과는 다음과 같다. - 품질(PESQ) 측면에서는 LSA‑DM이 전체 평균에서 가장 높은 점수(≈2.45)를 기록했으며, 그 뒤를 MA 계열(IAM‑MA, PSM‑MA)과 LMSA‑DM이 따랐다. 이는 로그 스펙트럼 손실이 인간 청각의 로그 감각을 잘 반영한다는 점을 시사한다. - 인텔리전스(ESTOI) 측면에서는 마스크 기반 접근법(IM, MA)이 전반적으로 우수했으며, 특히 PSM‑MA가 저 SNR(–15 dB)에서 가장 높은 ESTOI를 달성했다. 이는 위상 정보를 포함한 마스크가 잡음 억제와 동시에 위상 오류를 최소화하는 데 효과적임을 보여준다. - 직접 스펙트럼 예측(DM) 중에서도 LSA‑DM이 품질에서는 최고였지만, 인텔리전스에서는 마스크 기반 방법에 비해 약 0.02~0.04 정도 낮았다. 이는 스펙트럼 자체를 복원할 경우 위상 차이가 그대로 전달되어 인식 성능에 부정적 영향을 미칠 수 있음을 의미한다. - 보지 않은 화자와 보지 않은 잡음에 대한 일반화 실험에서도 MA 계열이 가장 작은 성능 저하를 보였으며, 이는 마스크가 상대적인 에너지 구조를 포착해 새로운 환경에서도 안정적인 추정이 가능함을 나타낸다. 결론적으로, AV‑SE 시스템 설계 시 “마스크 직접 추정(MA)”이 품질과 인텔리전스 모두에서 가장 균형 잡힌 선택이며, 로그 스펙트럼 직접 예측(LSA‑DM)은 품질 최적화에 특화된 옵션으로 활용될 수 있다. 또한, 시각 정보를 결합함으로써 저 SNR 상황에서도 잡음 억제 효과가 크게 향상되며, 이는 실시간 통신, 보조 청각 기기, 인간‑컴퓨터 인터페이스 등 다양한 응용 분야에 실질적인 이점을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기