청각 보조기용 저복잡도 원형통계 기반 DOA 추정

CIMPL은 양쪽 청각 보조기에 배치된 마이크쌍의 인터마이크로폰 위상 차이를 원형통계(평균·분산)로 분석하고, 분산 가중 선형 피팅을 통해 시간 차이(TDoA)를 추정한다. 이후 TDoA를 방위각으로 변환하고, 단일·양측 마이크쌍 정보를 통합한 뒤, 원형 분산을 신뢰도 지표로 활용해 래핑된 칼만 필터에 입력한다. 실험 결과, LOCATA 벤치마크 대비 추적 정확도가 향상되고 연산 속도는 약 75배 가속된다.

저자: Lars D. Mosgaard, David Pelegrin-Garcia, Thomas B. Elmedyb

청각 보조기용 저복잡도 원형통계 기반 DOA 추정
본 논문은 청각 보조기와 같이 제한된 공간에 마이크 배열을 배치해야 하는 상황에서, 고성능이면서도 저복잡도의 방향성 추정(DOA) 알고리즘을 설계하고 검증한다. 제안된 시스템은 “Circular statistics‑based Inter‑Microphone Phase difference estimation Localizer (CIMPL)” 라는 이름으로, 크게 세 단계로 구성된다. 첫 번째 단계는 시간 차이(TDoA) 추정이다. 입력 신호는 각 마이크쌍에 대해 단시간 푸리에 변환(STFT)된 스펙트럼 X_a(k,l), X_b(k,l) 로부터 즉시 위상 차이 θ_ab(k,l) 를 계산한다(식 1). 이 위상 차이는 원형 확률 변수 Θ 로 모델링하고, 이동 평균을 통해 복소수 평균 E{e^{jθ}} = R·e^{jθ̂} 를 구한다. 여기서 θ̂는 평균 위상, R은 평균 결과 길이(mean resultant length)로, 신호의 상관성을 나타낸다. 기존 방법은 R 자체를 가중치로 사용했지만, 저주파에서 확산 잡음도 높은 R을 보이는 문제점이 있다. 이를 해결하기 위해 저주파 영역 전체에 걸쳐 확산 잡음이 균일 분포가 되도록 위상을 변환하고, 변환된 평균 결과 길이 ˜R을 정의한다(식 3). ˜R은 확산 잡음에서는 0에 가깝고, 직접 파동에서는 1에 가까워, 저주파에서도 신뢰도 평가가 가능하도록 만든다. 다음으로, 각 주파수 bin마다 원형 분산 δ = 1‑˜R⁴/(2˜R²) 를 계산한다(식 5). δ는 R보다 불확실한 데이터를 더 크게 벌점(penalize)하는 특성을 가지며, 이를 가중치로 사용해 선형 회귀(θ = 2πf·τ) 를 수행한다. 회귀식의 해는 가중 평균 형태로 닫힌 식(식 6) 으로 구할 수 있으며, 동시에 τ의 분산도 가중 합산을 통해 근사식(식 7) 으로 얻는다. 이 단계는 매우 계산량이 적어 실시간 처리에 적합하다. 두 번째 단계는 모노럴(좌·우 청각 보조기 각각)과 바이노럴(양쪽 보조기 간) 마이크쌍의 정보를 통합하는 과정이다. 모노럴 TDoA τ_M 은 마이크 간 거리 d_M 와 소리 속도 c 를 이용해 φ_M = arccos(c·τ_M/d_M) 로 방위각을 얻는다(식 8). 바이노럴 TDoA τ_B 는 타원형 머리 모델을 가정해 φ_B ≈ arccos(c·τ_B/d_B) 로 변환한다(식 10). 각 방위각에 대한 분산은 TDoA 분산을 전파해 식 9·11 로 계산하고, 이를 다시 원형 분산(δ_M, δ_B)과 평균 결과 길이(R_M, R_B) 로 변환한다. 통합 과정에서는 먼저 φ_B 의 부호에 따라 소스가 좌측인지 우측인지 판단하고, 해당 측의 모노럴 방위각을 선택한다(ϕ_M). 선택된 모노럴과 바이노럴 각 ϕ_M, ϕ_B 를 전방위(−π~π) 구간으로 매핑하고, 두 추정치가 동일 평균을 갖는지 원형 χ² 검정(Y, 식 12) 으로 검증한다. 검정에 통과하면 가중 평균(식 14) 으로 통합 각 ˆϕ 를 구하고, 그 신뢰도는 결합 원형 분산(식 16)·결과 길이(식 17) 로 표현한다. 검정에 실패하면 신뢰도가 가장 높은(분산이 가장 작은) 추정치를 그대로 사용한다. 이러한 통계적 결합은 각 마이크쌍의 신뢰도를 정량적으로 반영하면서도, 소스가 앞·뒤에 있을 때의 기하학적 변환을 자동으로 수행한다. 세 번째 단계는 추정된 각도 ˆϕ 를 시간적으로 부드럽게 만드는 소스 트래킹이다. 원형(랩드) 칼만 필터를 적용하며, 기존 방법과 달리 혁신 분산 σ²_w 를 매 프레임마다 추정된 원형 분산 δ 로 업데이트한다. 즉, 신뢰도가 낮은 순간에는 큰 σ²_w 로 필터가 급격한 변동을 억제하고, 신뢰도가 높은 순간에는 작은 σ²_w 로 빠른 반응을 허용한다. 성능 평가는 LOCATA 챌린지의 청각 보조기 녹음 데이터(정적 소스, 이동 소스, 청취자 이동 포함)를 사용했다. 실험 설정에서 프로세스 노이즈 표준편차를 1° 로 고정하고, 원본 GCC‑PHAT 기반 벤치마크와 비교하였다. 결과는 다음과 같다. (1) 평균 각도 오차가 기존 벤치마크 대비 현저히 감소했으며, 특히 저주파와 작은 마이크 간격에서 큰 개선을 보였다. (2) 전체 연산 시간은 약 75배 가속되어 실시간 구현이 가능했다. (3) 원형 분산을 이용한 가중 회귀와 적응형 칼만 필터 덕분에 확산 잡음 및 리버브 환경에서도 안정적인 추적이 이루어졌다. 결론적으로, CIMPL은 원형통계와 가중 선형 피팅, 통계적 결합, 적응형 랩드 칼만 필터를 결합함으로써, 마이크 간 거리가 수 밀리미터 수준인 청각 보조기에서도 저복잡도·고정밀 DoA 추정을 실현한다. 향후 다중 소스 상황이나 3차원 방위 추정으로 확장하는 연구가 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기