재즈 녹음에서 악기 인식을 위한 랜덤 포레스트와 랜덤 퍼른 비교
초록
본 논문은 사전 음절·음높이 추출 없이 40 ms 프레임 기반으로 재즈 밴드 녹음을 분석한다. 최신 이미지 분류에 활용된 랜덤 퍼른(Random Ferns)을 도입하고, 기존에 좋은 성능을 보인 랜덤 포레스트(Random Forest)와 비교한다. 91개의 MPEG‑7 기반 음향 특징을 사용해 4종 악기(클라리넷, 트럼본, 트럼펫, 수소폰)를 이진 분류기로 학습·평가했으며, 정밀도·재현율·F‑score를 통해 두 알고리즘의 정확도와 연산 효율을 검증한다.
상세 분석
이 연구는 악기 인식 문제를 프레임 단위로 전환함으로써 전통적인 onset·offset 검출이나 피치 추출을 배제한다. 40 ms 길이의 프레임을 10 ms 간격으로 이동시키며, 각 프레임을 91개의 음향 특성으로 벡터화한다. 특성은 스펙트럼 평탄도, 중심주파수, 스프레드, 에너지, 13차 MFCC, 제로 크로싱 비율, 롤오프 주파수 등으로 구성되며, 동일 프레임 내 30 ms 구간 차이를 추가해 동적 변화를 포착한다. 이러한 풍부한 특징은 사전 차원 축소 없이 바로 분류기에 투입될 수 있다.
랜덤 포레스트(RF o)는 부트스트랩 샘플링과 무작위 특성 선택(K≈√P)을 통해 다수의 완전 성장 트리를 생성한다. 트리당 복잡도는 O(N₀·log N₀·K)이며, 분류 시 트리 수와 평균 깊이에 비례한다. 반면 랜덤 퍼른(RF e)은 고정 깊이 D의 ‘펀’(fern)들을 다수 모아 숲을 만든다. 각 펀은 동일 깊이에서 동일 분할 기준을 사용해 D차원 배열 형태로 클래스 분포를 저장한다. 훈련 복잡도는 O(2·D·N_f·N₀)로, 트리 기반 방법보다 선형적으로 작으며 메모리 접근도 적다. 특히 펀은 분할 기준을 완전 무작위로 선택하고, 리프에 디리클레 사전(가중치 1)을 적용해 빈 리프 문제를 해결한다.
실험에서는 1000개의 트리와 1000개의 펀(깊이 10)을 각각 사용했으며, 4개의 이진 분류기(배터리)를 구축했다. 훈련 데이터는 단일 악기 음원을 1~4개의 악기로 무작위 혼합해 3000개의 양성·음성 샘플을 생성했다. 테스트는 실제 재즈 밴드 녹음 3곡(‘Mandeville’, ‘Washington Post’, ‘Stars & Stripes’)에 대해 수행했으며, 프레임별 RMS 가중치를 적용해 정밀도·재현율·F‑score를 산출했다.
결과는 RF o가 정밀도에서 우세하지만, RF e가 재현율에서 약간 앞섰다. 전체 F‑score는 두 방법이 거의 동등했으며, 특히 수소폰과 트럼펫은 두 알고리즘 모두 높은 정확도를 보였다. 계산 측면에서 RF e는 훈련 시간이 RF o보다 현저히 짧고, 메모리 사용량도 적어 모바일 환경에 적합함을 시사한다. 다만, 깊이 D와 펀 수 N_f를 늘리면 과적합 위험이 존재하므로 하이퍼파라미터 튜닝이 필요하다.
이 논문은 이미지 분야에서 시작된 랜덤 퍼른을 오디오 신호 처리에 성공적으로 적용했으며, 사전 전처리 없이도 실시간 악기 인식이 가능함을 입증한다. 향후 연구에서는 다중 라벨(동시 악기) 분류, 더 큰 악기군 확장, 그리고 임베디드 디바이스에서의 실시간 구현을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기