다중빔 딥 어트랙터 네트워크로 풀어낸 칵테일 파티 문제

본 논문은 고정된 차동 빔포머를 이용해 다채널 입력을 여러 빔으로 변환하고, 각 빔에 앵커 딥 어트랙터 네트워크(ADAN)를 적용해 화자별 스펙트럼 마스크를 추정한다. 빔별 결과를 후처리 단계에서 스펙트럼 클러스터링으로 선택해 최종 2~4 화자 혼합 음성을 고품질로 분리한다. 실험 결과 SDR 향상 11 dB 이상, WER 감소 45 %~63 %를 달성하였다.

저자: Zhuo Chen, Jinyu Li, Xiong Xiao

다중빔 딥 어트랙터 네트워크로 풀어낸 칵테일 파티 문제
본 논문은 인간이 칵테일 파티에서 여러 화자를 동시에 이해할 수 있는 능력을 기계적으로 구현하고자 하는 목표 아래, 기존 단일채널 딥러닝 기반 음성 분리 기술과 다채널 공간 필터링 기술을 결합한 새로운 프레임워크를 제시한다. 서론에서는 전통적인 통계·규칙 기반 단일채널 방법과 독립 성분 분석·클러스터링 기반 다채널 방법의 한계를 지적하고, 최근 딥 클러스터링(DC), 딥 어트랙터 네트워크(DAN), 퍼뮤테이션 인베리언트 트레이닝(PIT) 등 단일채널 딥러닝 접근법이 2~3 화자 혼합에서는 괄목할 만한 성과를 보였지만, 4 화자 이상 복잡한 상황에서는 여전히 성능이 급격히 저하된다는 점을 강조한다. 이에 대한 해결책으로, 저자는 먼저 다채널 입력을 차동 빔포머를 이용해 12개의 고정 빔으로 변환한다. 차동 빔포머는 2차 차동형태로 설계되어 특정 방향에 대한 감도는 유지하면서 반대 방향에 깊은 음향 널을 형성한다. 실험에서는 7개의 마이크(중심 마이크 1개와 원형으로 배치된 6개)로 구성된 배열을 사용했으며, 각 빔은 0°, 30°, …, 330° 방향을 목표로 설계되었다. 이러한 고정 빔 설계는 마이크 배열 형태에 크게 구애받지 않으며, 화자 위치가 사전에 알려지지 않은 상황에서도 충분히 다양한 공간 필터링 효과를 제공한다. 다음으로 각 빔에 대해 앵커 딥 어트랙터 네트워크(ADAN)를 적용한다. ADAN은 기존 DAN과 달리 학습 단계에서도 오라클 마스크를 사용하지 않고, 사전에 정의된 N개의 앵커 포인트(H)와 임베딩 V 사이의 유사도를 소프트맥스 함수로 정규화해 사전 세그멘테이션 행렬 W를 만든다. 각 화자‑앵커 조합(p,c)에 대해 가중 평균 임베딩 A_{p,c}를 계산하고, 조합들 간의 “in‑set similarity”를 최소화하는 조합을 선택한다. 선택된 어트랙터 집합을 기반으로 소프트 마스크 M_{c}=softmax(A_{c}·V)를 구하고, 원본 스펙트럼에 곱해 복원된 신호를 얻는다. 학습 과정에서는 퍼뮤테이션 인베리언트 트레이닝(PIT)을 적용해 출력 마스크 순열 중 최소 L2 손실을 갖는 순열을 선택하고, 이를 역전파에 사용한다. 이렇게 함으로써 화자 수가 가변적인 상황에서도 출력 차원을 고정하지 않고 모델을 훈련시킬 수 있다. 또한, 다중 빔 구조를 활용해 각 빔마다 G=2개의 가장 강한 화자를 선택하고, 나머지 화자들을 하나의 잔여 소스로 묶어 총 E=G+1=3개의 마스크를 생성한다. 이는 4 화자 혼합에서 약 70 % 이상의 경우에 약한 화자가 어느 빔에서도 가장 강하게 나타나지 않는 문제를 완화한다. 빔별 ADAN 출력은 총 E×B=3×12=36개의 후보 신호가 된다. 최종적으로 C개의 화자 신호를 선택하기 위해, 각 후보 스펙트럼의 피어슨 상관 행렬을 계산하고 이를 스펙트럼 클러스터링으로 C+1개의 클러스터로 분할한다. 추가 클러스터는 실패한 분리 결과나 잡음을 격리하는 역할을 하며, 실험에서는 4 화자 혼합의 92.5 %, 3 화자 혼합의 96 %, 2 화자 혼합의 99.5 %에서 화자별 클러스터링이 정확히 이루어졌다. 실험 설정은 2, 3, 4 화자 혼합 음성 데이터를 인공적으로 생성한 데이터셋을 사용했으며, 각 화자는 서로 다른 성별·음성 특성을 갖도록 구성하였다. 평가 지표는 신호 대 왜곡 비율(SDR)과 자동음성인식(ASR) 성능을 위한 워드 오류율(WER)이다. 결과는 4 화자 혼합에서 평균 SDR 향상이 11.5 dB, 3 화자에서 11.76 dB, 2 화자에서 11.02 dB였으며, 이는 오라클 위치·소스·노이즈 정보를 이용한 MVDR 빔포머와 거의 동등한 수준이다. ASR 실험에서는 깨끗한 음성 모델을 사용했을 때 WER가 각각 45.76 %, 59.40 %, 62.80 % 감소했으며, 원거리 대화 모델을 적용하면 추가적인 개선이 관찰되었다. 본 연구의 주요 기여는 (1) 차동 빔포머를 이용한 마이크 배열 독립적인 공간 전처리, (2) 앵커 기반 딥 어트랙터 네트워크를 통한 효율적인 스펙트럼 마스크 학습, (3) 간단하면서도 효과적인 후처리 클러스터링을 통한 화자 선택이다. 한계점으로는 고정된 빔 수와 빔 간 상호 의존성으로 인한 계산량 증가, 그리고 후처리 단계가 아직 최적화되지 않아 실시간 적용에 추가 연구가 필요하다는 점을 들 수 있다. 향후 연구에서는 빔 수를 동적으로 조절하거나, 빔 선택을 신경망 내부에서 end‑to‑end 방식으로 학습시키는 방안을 모색하고, 실시간 시스템 구현을 위한 경량화 모델 개발을 목표로 할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기