FOA 기반 스테어링 벡터 가상 업믹싱을 위한 확산 모델 SIRUP
초록
본 논문은 4채널 1차 앰비소닉스(FOA) 마이크 배열에서 얻은 스테어링 벡터(SV)를 고차 앰비소닉스(HOA) 수준으로 가상 업믹싱하는 SIRUP 방식을 제안한다. VAE로 HOA SV의 잠재 표현을 학습하고, 이를 FOA 입력에 조건화한 확산 모델이 HOA 임베딩을 생성한다. 실험 결과, 기존 FOA 기반 파이프라인에 비해 방향 추정 정확도, 빔폭 감소, 사이드로드 억제 및 음성 디노이징 성능이 크게 향상됨을 보였다.
상세 분석
SIRUP은 기존 FOA→HOA 변환 파이프라인이 갖는 “저해상도 SV → 파라미터 추정 → HOA 렌더링”이라는 연쇄 오류 구조를 근본적으로 재설계한다. 핵심 아이디어는 스테어링 벡터 자체를 직접 고해상도로 복원하는 것이다. 이를 위해 먼저 VAE를 이용해 HOA SV를 저차원 잠재 공간(z)으로 압축한다. VAE는 재구성 손실(ℓ2), 코사인 유사도, 퍼셉추얼 손실, 그리고 KL 정규화 항을 결합한 복합 손실을 사용해 학습되며, 이는 복원된 SV가 원본 HOA와 위상·크기 모두에서 일치하도록 강제한다.
잠재 공간이 확보되면, 조건부 확산 모델이 FOA SV(채널 4)를 입력 조건(c)으로 받아 노이즈 단계(T=1000)에서 역전파 과정을 통해 HOA 잠재 벡터를 샘플링한다. 조건 인코딩은 VAE 인코더(Eϕ)로 얻은 임베딩이며, UNet 기반 디노이저(εθ)는 시계열 주파수 축에 팽창된 컨볼루션을 적용해 주파수 간 연속성을 보장한다. 또한, FOA 텐서를 직접 UNet 입력에 concat하고, 각 블록에 cross‑attention을 삽입해 조건 정보를 효과적으로 전달한다.
생성된 잠재 벡터는 VAE 디코더(Dψ)를 통해 복원되어 M′=16(3차 HOA) 채널의 SV 행렬 ˆA_up을 만든다. 이 SV는 직접 경로와 초기 반사까지 포함한 풍부한 공간 정보를 담고 있어, 이후 SRP‑PHAT 기반 DOA 추정 시 더 날카로운 빔패턴을 제공한다. 빔포밍 단계에서는 알제브라적 SV와 측정된 SV를 자유롭게 교체할 수 있어, 디노이징 효과까지 동시에 얻을 수 있다.
실험 설계는 두 가지 변수(신호대잡음비 SNR, 잔향시간 RT60)를 독립적으로 변동시킨 30개의 가상 방을 사용했으며, FOA(4채널)와 HOA(16채널) 데이터를 동일한 RIR로 합성했다. 평가 지표는 DOA 각도 오차, Directivity Index(DI), 3 dB 빔폭, 사이드로드 레벨, 그리고 BSS‑Eval 기반 SDR/SIR/SAR을 포함한다. 결과는 SIRUP이 FOA 대비 평균 DOA 오차를 5°8° 정도 감소시켰으며, 빔폭을 약 10° 좁히고 사이드로드를 9 dB 억제함을 보여준다. 특히 저SNR(5 dB) 상황에서도 HOA 수준에 근접한 성능을 유지했으며, 복합 소스(두 음성) 혼합 실험에서도 디노이징된 SV를 이용한 빔포밍이 FOA 대비 SDR을 12 dB, SIR을 4~5 dB 향상시켰다.
이러한 성과는 두 가지 중요한 시사점을 제공한다. 첫째, 확산 모델이 고차원 공간 정보를 효율적으로 복원할 수 있음을 증명한다. 둘째, SV 자체를 고해상도로 업믹싱함으로써 downstream SSL·SE 파이프라인 전체의 오류 전파를 차단하고, 하드웨어 비용 없이 HOA 수준의 공간 해상도를 가상으로 구현한다는 실용적 가치를 제공한다. 향후 연구에서는 SIRUP이 생성한 HOA SV를 직접 소스 분리·렌더링에 활용하거나, 실시간 구현을 위한 경량화 모델 설계가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기