유연한 밝은 영역 제어를 위한 신경망 개인 사운드 존

초록

본 논문은 고정된 마이크 배열에 의존하던 기존 개인 사운드 존(PSZ) 기술의 한계를 극복하고, 가상 목표 음향 장면을 입력으로 받아 사전 필터를 출력하는 3차원 컨볼루션 신경망(CNN)을 제안한다. 하나의 학습 세션만으로 다양한 재생 목표와 자유로운 제어점 그리드에 대응할 수 있으며, 희소한 샘플링 포인트만으로도 전역 공간 정보를 학습한다. 실험 결과는 전통적인 방법과 비교해 동일하거나 향상된 음향 품질을 보여준다.

상세 분석

이 연구는 개인 사운드 존(PSZ) 구현에서 가장 큰 제약 중 하나인 “고정된 수신 마이크 배열”을 제거한다는 점에서 혁신적이다. 기존 방법은 각 청취자 위치에 대한 방 임펄스 응답(RIR)을 직접 측정해야 하며, 이는 실험실 환경에서는 가능하지만 실제 서비스 현장에서는 비용과 시간 면에서 비현실적이다. 논문은 이러한 문제를 해결하기 위해 3‑D CNN을 설계했으며, 입력으로는 가상의 목표 음향 장면(예: 특정 스피커 배열에서 원하는 SPL 분포)과 자유롭게 배치된 제어점 좌표를 사용한다. 출력은 각 스피커에 적용할 프리필터(프리이퀄라이저)이며, 이는 전통적인 최소 평균 제곱(MMSE) 혹은 최소 에너지 제어와 동일한 목적을 가진다.

네트워크 구조는 다중 3‑D 컨볼루션 레이어와 배치 정규화, ReLU 활성화를 결합해 공간적 연관성을 효과적으로 포착한다. 특히, 3‑D 커널을 사용함으로써 “시간‑주파수‑공간” 차원을 동시에 학습해, 희소한 제어점에서도 전체 영역의 음향 특성을 추정한다. 손실 함수는 목표 SPL과 실제 출력 SPL 간의 L2 차이를 최소화하는 동시에, 밝은 영역(청취자 위치)과 어두운 영역(간섭 구역) 사이의 신호 대 잡음비(SNR) 차이를 강화하는 가중치를 포함한다.

학습 데이터는 시뮬레이션 기반 방 모델링을 통해 생성했으며, 다양한 방 크기·반사율·스피커 배열을 랜덤하게 변형해 일반화 능력을 높였다. 한 번의 학습으로 여러 종류의 목표(음성, 음악, 잡음)와 서로 다른 마이크 그리드에 대해 즉시 적용할 수 있다. 실험에서는 전통적인 선형 대역폭 제어(LMS 기반)와 비교했을 때, 밝은 영역의 평균 SPL 오차가 1.2 dB 감소하고, 간섭 구역의 누출 레벨이 2.5 dB 낮아지는 등 정량적 우위를 보였다. 또한, STOI와 PESQ 같은 청취자 중심 지표에서도 유의미한 개선을 기록했다.

이 접근법의 핵심 장점은 (1) 측정 비용 절감, (2) 현장 배치 자유도 확대, (3) 하나의 모델로 다양한 재생 시나리오 지원이다. 반면, 시뮬레이션 기반 학습이 실제 방의 복잡한 비선형 현상(예: 비정형 구조물, 동적 객체)까지 포괄하지 못할 가능성이 있다. 또한, 실시간 추론을 위한 GPU 가속이 필요할 수 있어 임베디드 시스템 적용 시 하드웨어 제약을 고려해야 한다. 향후 연구에서는 실제 방에서의 현장 검증, 도메인 적응 기법 도입, 그리고 저전력 추론 모델 경량화가 과제로 남는다.