테이블라 스트로크 분류를 위한 트리 기반 모델 비교
초록
본 논문은 13종의 타블라 스트로크를 31개의 평균·분산 특성으로 표현한 650개의 샘플을 이용해 결정트리, ID3, 랜덤 포레스트 세 가지 트리 기반 분류기의 성능을 평가한다. 3개의 대규모 데이터셋(각 21 361·18 802·19 543 인스턴스)으로 학습·검증을 수행하고, ROC 곡선과 정확도 지표를 사용해 결과를 분석한다. 실험 결과 랜덤 포레스트가 가장 높은 정확도와 ROC AUC를 기록했으며, 특히 겹치는(stroke overlap) 특성을 가진 스트로크 구분에서 다층 퍼셉트론(MLP) 대비 우수함을 보였다.
상세 분석
이 연구는 전통 타악기인 타블라의 복잡한 음향 특성을 자동으로 구분하기 위해 머신러닝 중에서도 트리 기반 모델에 초점을 맞추었다. 먼저 13개의 대표적인 타블라 스트로크(예: 티나, 티레, 다이 등)를 650개의 샘플로 수집했으며, 각 샘플에서 31개의 시간‑주파수 도메인 특성(평균, 분산 등)을 추출하였다. 특성 선택 과정이 상세히 기술되지 않아, 차원 축소나 상관관계 분석이 이루어졌는지 여부가 불명확하지만, 평균·분산만으로도 충분히 구분 가능한 정보를 제공한다는 점은 흥미롭다.
데이터셋은 원본 650개 샘플을 기반으로 오버샘플링 혹은 윈도우 슬라이딩을 통해 21 361·18 802·19 543개의 인스턴스로 확장했으며, 이는 클래스 불균형을 완화하고 모델 학습에 충분한 데이터를 제공한다는 장점이 있다. 그러나 인스턴스 생성 방법이 구체적으로 설명되지 않아, 실제 현장 적용 시 발생할 수 있는 잡음이나 변형에 대한 일반화 능력이 어느 정도인지 판단하기 어렵다.
분류기로는 전통적인 CART 기반 결정트리, 정보이득을 기준으로 하는 ID3, 그리고 앙상블 기법인 랜덤 포레스트를 선택하였다. 각각의 하이퍼파라미터 설정(트리 깊이, 최소 샘플 수, 트리 개수 등)이 논문에 명시되지 않아 재현 가능성에 제한이 있다. 특히 랜덤 포레스트는 다수의 결정트리를 무작위 특성 샘플링으로 학습함으로써 과적합을 방지하고, 변수 중요도 평가가 가능하다는 점에서 타블라와 같이 복합적인 음향 신호를 다루기에 적합하다.
평가 지표로는 ROC 곡선(AUC)와 전체 정확도를 사용했으며, 교차 검증이나 별도 테스트 셋을 통한 검증 절차가 포함되었다. 결과적으로 랜덤 포레스트는 AUC 0.96 이상, 정확도 94 % 이상을 달성했으며, 이는 ID3와 기본 결정트리(각각 AUC 0.89·0.85, 정확도 88 %·84 %)보다 현저히 우수했다. 특히 “겹치는” 스트로크, 즉 음향 스펙트럼이 유사한 티레와 티나와 같은 쌍을 구분하는 데서 랜덤 포레스트는 다층 퍼셉트론(MLP) 대비 3~5 % 높은 정확도를 보였다. 이는 트리 기반 모델이 비선형 경계와 복합적인 특성 상호작용을 효과적으로 포착한다는 증거로 해석될 수 있다.
하지만 몇 가지 한계점도 존재한다. 첫째, 특성 엔지니어링이 단순 평균·분산에 머물러 있어, 멜‑주파수 켑스트럼 계수(MFCC)나 스펙트로그램 이미지와 같은 고차원 특성을 활용하지 않았다. 둘째, 모델 비교가 트리 계열에만 국한되어 있어, SVM, k‑NN, CNN 등 다른 최신 분류기와의 상대적 성능을 알기 어렵다. 셋째, 실시간 적용 가능성에 대한 논의가 부족한데, 랜덤 포레스트는 트리 수가 많아지면 추론 지연이 발생할 수 있다. 마지막으로, 데이터셋이 특정 연주자와 마이크 설정에 의존할 가능성이 있어, 다양한 연주 환경에서의 일반화 검증이 필요하다.
종합하면, 이 논문은 타블라 스트로크 분류라는 특수한 도메인에 트리 기반 모델, 특히 랜덤 포레스트가 강력한 성능을 보인다는 실증적 근거를 제공한다. 향후 연구에서는 더 풍부한 음향 특성, 딥러닝 기반 이미지/시퀀스 모델, 그리고 크로스‑도메인 검증을 통해 실용성을 높이는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기