청각학을 위한 가상 음향 환경 렌더링 툴박스

** 본 논문은 청각학 및 보청기 연구를 위한 실시간 가상 음향 환경 생성·렌더링 툴킷인 TASCAR(Toolbox for Acoustic Scene Creation and Rendering)의 설계, 구현, 그리고 성능을 종합적으로 소개한다. 청각 보조기기의 성능은 실제 청취 환경의 복잡성에 크게 좌우되지만, 기존 실험실 설정은 주로 정적인 단일 소스 혹은 간단한 방 구조에 국한돼 있다. 이러한 한계를 극복하고자 저자들은 리눅스 오디오 기반의 오픈소스 엔진을 개발했으며, 이는 움직이는 소스·리플렉터·청취자와 같은 동적 요소를 실시간으로 처리한다. 시스템 아키텍처는 네 개의 주요 블록으로 나뉜다. 첫 번째 블록인 오디오 플레이어는 내부 혹은 외부(DAW, 측정 장비 등)에서 오디오 스트림을 받아온다. 두 번째 블록인 기하학 프로세서는 각 객체의 위치 p(t)와 방향 Ω(t)를 시간에 따라 선형 보간하고, 회전 행렬 O를 통해 3‑D 회전을 적용한다. 세 번째 블록인 음향 모델은 소스 직접성, 전송 모델, 이미지 소스 모델, 그리고 수신기 모델을 차례로 적용한다. 소스 직접성은 저주파에서 무지향, 고주파에서 방향성을 구현하기 위해 거리‑각도에 기반한 5차 저역통과 필터를 사용한다. 전송 모델은 1/r 거리 법칙과 공기 흡수를 첫 번째 차 저역통과 필터(a₁ = e^{‑r·α/fs·c})로 근사하고, 거리‑가변 지연 라인을 최근접 이웃 또는 sinc 보간으로 구현한다. 장애물은 평면 다각형으로 모델링되며, 직접 경로는 고정 감쇠 a₀, 회절 경로는 2차 저역통과 필터(컷오프 f₀ = 3.8317·c·sinθ₀/2πa)로 처리한다. 이미지 소스 모델은 기하학적 이미지 소스를 이용해 반사를 시뮬레이션한다. 1차 반사에서는 원본 소스와 반사면 사이에 대칭 이미지 소스를 배치하고, 고차 반사는 저차 이미지 소스를 새로운 원본으로 삼아 재귀적으로 생성한다. 유한 반사면의 경우 ‘스펙큘러’와 ‘에지’ 반사를 구분한다. 에지 반사에서는 이미지 소스 위치를 이동시켜 부드러운 페이드(g = κ·cosθ, κ=2.7)를 적용하고, 회절 효과를 근사한다. 반사 필터는 반사 계수 ρ와 감쇠 계수 δ를 통해 주파수‑의존 흡수 α(f)를 재현한다. 확산 소스는 1차 Ambisonics(FOA) 포맷으로 삽입되며, 거리 법칙을 적용하지 않는다. 대신 사각형 범위 박스 안에 청취자가 있을 때만 활성화되며, 박스의 위치·방향은 시간에 따라 변한다. 이는 교통 소음·배경 잡음 등 공간적으로 넓게 퍼진 소리를 효율적으로 모델링한다. 잔향은 기본적으로 제공되지 않으며, 외부 툴(예: 피드백‑딜레이 네트워크, FOA 임펄스 응답)과 결합해 구현하도록 설계되었다. 수신기 모델은 전송 모델의 출력들을 방향‑패닝하거나 FOA 디코딩을 수행해 다채널 신호 z(t)를 만든다. 패닝 가중치 w(p_rel,k)와 디코딩 행렬 D̂는 사용자가 선택한 출력 포맷(스테레오, 5.1, B‑포맷 등)에 맞게 동적으로 구성된다. 성능 평가에서는 일반적인 상용 PC(예: Intel i7‑9700K, 16 GB RAM)에서 44.1 kHz 샘플레이트 기준으로 200~300개의 동시 가상 소스를 실시간으로 처리할 수 있음을 보였다. 복잡도는 소스 수, 반사 차수, 확산 소스 사용 여부에 따라 선형 혹은 로그‑스케일로 증가한다. 특히 이미지 소스와 회절 모델을 포함한 경우 CPU 사용률이 급격히 상승하지만, 최적화된 C++ 구현과 멀티스레딩을 통해 실시간 요구사항을 만족한다. 결론적으로 TASCAR는 기존의 오프라인 임펄스 응답 기반 시뮬레이터와 달리 실시간 상호작용, 동적 객체 이동, 그리고 청각학 실험에 필요한 정밀한 거리·반사·회절 모델을 제공한다. 이는 보청기 알고리즘의 실제 환경 적용성을 평가하고, 사용자‑환경‑디바이스 간 인터페이스(예: 머리 움직임, 시선, 뇌‑컴퓨터 인터페이스) 연구에 필수적인 플랫폼으로 활용될 수 있다. **

청각학을 위한 가상 음향 환경 렌더링 툴박스

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기