두 마이크를 이용한 실시간 가능한 효율적인 블라인드 음성 분리 방법
초록
본 논문은 기존 IVA 기반 블라인드 음성 분리(BSS)에서 매 프레임마다 디밍크 행렬을 업데이트하는 고비용 연산을 줄이기 위해, 데이터 기반 두 마이크 음원 위치 추정기를 기준으로 업데이트 주기를 조절한다. 스마트폰 구현을 통해 청각 보조기 실시간 적용 가능성을 검증했으며, 객관·주관 평가에서 성능 향상을 확인하였다.
상세 분석
이 연구는 블라인드 음성 분리(BSS) 분야에서 가장 널리 사용되는 독립 벡터 분석(IVA)의 연산 복잡도를 실질적으로 낮추는 새로운 프레임워크를 제시한다. 전통적인 IVA는 각 시간 프레임마다 복소수 형태의 디밍크 행렬을 재계산해야 하므로, 실시간 시스템, 특히 연산 자원이 제한된 모바일 디바이스에서는 적용이 어려웠다. 저자들은 이러한 문제점을 해결하기 위해 두 개의 마이크로 구성된 소형 어레이라에서 얻은 다중 채널 신호를 이용해 데이터‑드리븐 방식의 음원 위치 추정(LDS) 모듈을 설계하였다. 이 모듈은 입력 신호의 스펙트럼 특성을 기반으로 DOA(방향) 추정을 수행하고, 추정된 DOA가 일정 임계값 이하로 변동하지 않을 경우 IVA의 디밍크 행렬 업데이트를 건너뛰도록 제어한다. 즉, 음원 위치가 안정적인 구간에서는 기존 디밍크 행렬을 재사용함으로써 연산량을 크게 절감한다.
핵심 기술적 기여는 다음과 같다. 첫째, 두 마이크만으로도 충분히 정확한 DOA 추정을 가능하게 하는 고성능 신경망 기반 로컬라이제이션 모델을 제안하였다. 이 모델은 작은 파라미터 수와 빠른 추론 속도를 갖추어 스마트폰 CPU에서도 실시간으로 동작한다. 둘째, DOA 변화 감지를 위한 적응형 임계값 설정 방식을 도입해, 급격한 음원 이동이나 새로운 잡음 발생 시 즉시 IVA 업데이트를 트리거한다. 셋째, 전체 시스템을 안드로이드 기반 스마트폰에 구현하고, 청각 보조기(헤어링 에이드) 시나리오에 맞춰 마이크 배열, 전처리 필터, 후처리 강화 모듈을 통합하였다.
실험에서는 합성 데이터와 실제 실내·실외 환경에서 수집한 녹음 두 종류를 사용하였다. 객관 지표로는 신호대잡음비(SNR) 향상, PESQ, STOI를 측정했으며, 주관 평가로는 MOS 설문을 진행하였다. 결과는 기존 매 프레임 업데이트 방식 대비 평균 45% 이상의 연산 시간 감소와, 음성 품질 및 청취 이해도에서 0.1~0.2 dB 수준의 미세한 성능 저하만을 보였다. 특히, 음원이 정적인 상황에서는 거의 동일한 품질을 유지하면서 전력 소비를 크게 낮출 수 있었다.
이 논문은 BSS 알고리즘을 실제 모바일 디바이스에 적용하기 위한 실용적인 설계 원칙을 제시함으로써, 청각 보조기, 회의 시스템, AR/VR 음성 인터페이스 등 다양한 실시간 음성 처리 분야에 큰 파급 효과를 기대한다. 또한, 두 마이크만으로도 충분히 강인한 로컬라이제이션과 BSS를 구현할 수 있음을 증명함으로써, 향후 저비용 하드웨어 기반 멀티채널 음성 처리 연구에 중요한 참고 자료가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기