현실 세계 음향을 위한 공간 일반화 오디오 모델 GRAM
초록
GRAM은 다채널 마스크드 오토인코더를 이용해 공간 정보를 보존한 일반 목적 오디오 표현을 학습한다. 85,000개의 자연스러운 실내 장면을 시뮬레이션한 데이터와 실제 녹음 데이터를 활용해 NatHEAR와 RealSELD 벤치마크에서 기존 자기지도 모델들을 크게 앞섰으며, 특히 소리 위치 추정에서 최첨단 성능을 기록한다.
상세 분석
본 논문은 기존 오디오 기반 모델이 건조하고 단일 채널 데이터에만 최적화돼 현실의 복잡한 음향 환경—리버버레이션, 배경 잡음, 그리고 공간적 힌트—을 제대로 다루지 못한다는 문제점을 명확히 제시한다. 이를 해결하기 위해 제안된 GRAM은 두 가지 핵심 설계를 갖는다. 첫째, 다채널(바이노럴 및 1차 앰비소닉스) 입력을 그대로 활용하는 마스크드 오토인코더(MAE) 구조를 채택해, 마스크된 패치를 복원하면서 ILD(Interaural Level Difference)와 IV(Intensity Vector)와 같은 공간 cue를 강제 학습한다. 둘째, 대규모 시뮬레이션 파이프라인을 구축해 Matterport3D의 85채 가구를 기반으로 85,000개의 방음향(RIR)과 헤드 관련 전달 함수(HRTF)를 결합, 실제 청취자 위치·방향·소스 위치를 무작위로 배치한 자연스러운 음향 장면을 생성한다. 이러한 장면은 AudioSet 클립과 WHAMR! 잡음 데이터를 온라인으로 혼합해 SNR을 5~40 dB 범위로 조절함으로써, 훈련 시 현실적인 노이즈와 리버버레이션을 동시에 경험하게 한다.
모델 아키텍처는 ViT‑Base(12‑layer) 인코더와 로컬‑글로벌 어텐션 디코더를 사용한다. 패치 추출 단계에서 바이노럴 스펙트로그램은 (2 채널 × 8 × 16) 형태, 앰비소닉스는 (7 채널 × 8 × 16) 형태로 나뉘며, 80 %의 패치를 마스크하고 학습한다. 디코더는 다양한 윈도우 크기(
댓글 및 학술 토론
Loading comments...
의견 남기기