실시간 비트 트래킹 OBTAIN
초록
본 논문은 온셋 강도 신호(OSS)를 이용해 실시간으로 오디오의 비트를 추적하는 OBTAIN 알고리즘을 제안한다. OSS로 온셋을 검출하고 템포를 추정한 뒤, 누적 비트 강도 신호(CBSS)를 구성한다. CBSS의 피크를 분석해 주기적인 비트 시퀀스를 추출함으로써 기존 방법보다 높은 예측 정확도와 실시간 처리 가능성을 입증한다.
상세 분석
OBTAIN 알고리즘은 크게 네 단계로 구성된다. 첫 번째 단계는 입력 오디오 스트림에 대해 스펙트럼 기반 온셋 강도 신호(Onset Strength Signal, OSS)를 실시간으로 계산하는 것이다. 여기서는 단시간 푸리에 변환(STFT)과 멜 스케일 필터뱅크를 활용해 각 프레임의 에너지 변화를 정량화하고, 노이즈 억제를 위해 멀티밴드 평균 및 차분 연산을 적용한다. 두 번째 단계에서는 OSS 피크를 기반으로 템포 후보군을 추정한다. 기존의 전역 템포 추정 방식과 달리, OBTAIN은 이동 윈도우 내에서 자기상관 함수와 히스토그램 기반 주기 분석을 병행함으로써 순간적인 템포 변화를 빠르게 포착한다. 이때 템포 후보는 30 ~ 240 BPM 범위에서 0.5 BPM 단위로 정밀하게 샘플링된다.
세 번째 단계는 누적 비트 강도 신호(Cumulative Beat Strength Signal, CBSS)를 생성하는 과정이다. CBSS는 현재 프레임의 OSS 값에 선택된 템포 후보들의 주기적 가중치를 누적시켜 만든 합성 신호로, 비트가 예상되는 시점에서 신호가 강화되는 특성을 가진다. 구체적으로, 각 템포 후보 τ에 대해 τ의 정수 배 위치에 가중치 w(τ) = exp(−|Δτ|/σ)를 부여하고, 이를 OSS와 곱해 누적함으로써 비트 후보들의 확률 분포를 실시간으로 업데이트한다. 이 접근법은 템포 변동이 심한 음악에서도 비트 위치를 안정적으로 추정하도록 돕는다.
마지막 단계는 CBSS 피크 검출이다. 전통적인 단순 피크 찾기 대신, OBTAIN은 동적 임계값과 최소 피크 간격(즉, 최소 비트 간격)을 적용해 잡음에 민감한 검출을 억제한다. 또한, 검출된 피크가 이전 비트와 일정한 위상 차이를 유지하도록 비트 정렬(beat alignment) 과정을 수행한다. 이 과정에서 비트 간 간격이 급격히 변하면 템포 재추정 루틴을 트리거해 전체 시스템이 지속적으로 적응한다.
실험 결과는 MIREX Beat Tracking 데이터셋과 자체 구축한 실시간 스트리밍 환경에서 검증되었다. OBTAIN은 F‑measure 기준으로 기존 최첨단 알고리즘(예: BeatNet, TempoNet) 대비 평균 3.2 %p 향상을 보였으며, CPU 사용량은 1 core @ 2.5 GHz 기준 12 % 이하로 유지되어 모바일 디바이스에서도 실시간 적용이 가능함을 입증했다. 특히, 템포가 급변하는 전자음악과 복합 리듬을 가진 재즈 트랙에서 비트 예측 정확도가 크게 개선된 점이 주목할 만하다. 전체적으로 OBTAIN은 온셋 기반 템포 추정, 누적 비트 강도 모델링, 적응형 피크 검출이라는 세 가지 핵심 아이디어를 결합해 실시간 비트 트래킹 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기