경찰 바디워너드 오디오 자동 갈등 탐지
초록
본 논문은 경찰 바디워너드 오디오(BWA)에서 갈등 상황을 자동으로 식별하기 위한 파이프라인을 제안한다. 적응형 잡음 제거와 비음성 필터링을 거친 뒤, 반복 구문과 발화 강도를 기반으로 새로운 갈등 지표를 정의한다. 105개의 LAPD 데이터에 적용한 결과, 고·중·저 갈등 파일을 효과적으로 순위화하여 수작업 검토 시간을 크게 절감한다.
상세 분석
이 연구는 기존의 대화 분석 지표인 발화 교대(turn‑taking)와 겹침(overlap)이 경찰‑시민 상호작용에서는 갈등을 충분히 반영하지 못한다는 점을 지적한다. 특히 바디워너드 오디오(BWA)는 교통 소음, 사이렌, 무전 등 다양한 비정상적 잡음이 섞여 있어 전통적인 스펙트럼 기반 겹침 검출이 낮은 신뢰도를 보인다. 논문은 이러한 한계를 극복하기 위해 세 단계의 전처리와 특수한 갈등 지표 설계에 초점을 맞춘다.
첫 번째 단계는 OM‑LSA와 MCRA를 결합한 적응형 잡음 억제이다. 여기서는 STFT 기반 스펙트럼 이득 G(k,l)을 계산하고, 사후 확률 p(k,l)와 사전 SNR ξ(k,l)를 이용해 잡음과 음성의 존재 여부를 동적으로 추정한다. 필터링을 세 번 연속 적용해 지속적인 배경 잡음은 크게 감소시키면서, 급격한 잡음(예: 사이렌)도 별도 절차로 보정한다.
두 번째 단계는 23개의 단기 음향 특징(13 MFCC, 제로‑크로싱, 에너지 등)과 0.3 s 프레임, 0.1 s 중간 프레임을 결합한 특성 집합을 구성하고, RBF‑SVM을 이용해 음성/비음성을 구분한다. 38분(22 733 프레임)의 음성 및 47분(28 239 프레임)의 비음성 데이터를 학습시켜 10‑fold 교차 검증에서 총 오류율 2.31 %를 달성, 기존 5‑12 % 수준보다 현저히 우수함을 입증한다.
핵심은 세 번째 단계인 ‘반복 탐지’이다. 에너지 기반 구간 분할을 통해 음절·단어·구절 수준의 세그먼트를 자동 추출한다. 이후 두 가지 상보적 방법을 적용한다. 첫 번째는 0.1 s 윈도우와 300‑3000 Hz 대역을 32개 밴드로 나눈 후, 2차 차분을 이진화해 만든 ‘지문(fingerprint)’ 배열을 비교해 차이율 E를 구한다. 두 번째는 동일 대역의 푸리에 계수를 윈도우별로 추출해 상관계수 C를 계산한다. 두 지표는 각각 민감도와 특이도에서 장단점이 뚜렷하므로, 경험적 임계값을 적용한 함수 f₁(E), f₂(C)로 정규화한 뒤 S(E,C)=p·f₁·f₂ 형태의 종합 점수를 산출한다.
점수는 반복 점수와 발화 강도(에너지 평균)를 곱해 최종 갈등 점수로 정의한다. 이렇게 정의된 점수는 반복이 많고 강도가 높은 구간이 많은 파일일수록 높게 나타난다. 실험에서는 105개 파일(길이 3‑30 분)을 고(3건), 중(15건), 저(87건) 세 등급으로 라벨링했으며, 고·중 갈등 파일이 상위 10점수 안에 모두 포함되는 등 순위화 성능이 뛰어났다. 특히 상위 23 % 파일만 검토해도 전체 갈등 파일의 78 %를 포착한다.
추가 논의에서는 화자 다이어리제이션의 필요성을 언급한다. 현재 비오피서 음성은 잡음에 취약해 오탐률을 높이지만, 화자 검증을 위한 사전 녹음 샘플을 확보한다면 오피서 음성만을 대상으로 갈등 지표를 계산해 정확도를 더욱 향상시킬 수 있다. 전체적으로 이 논문은 잡음이 심한 현장 음성 데이터를 대상으로 반복·강도 기반 갈등 지표를 설계하고, 실용적인 파일 순위화 도구를 제공함으로써 경찰 현장 기록 분석에 새로운 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기