음악 장르 인식을 위한 확장형 특징 엔지니어링 파이프라인
초록
**
본 논문은 전통적인 추출‑분류 2단계 방식을 탈피하여, 정보이득 기반 특징 선택과 오토인코더 기반 비선형 압축을 결합한 다중 순환 파이프라인을 제안한다. GTZAN 데이터셋 실험 결과, 평균 정확도가 78 % → 86.3 % → 91 % 로 단계별 향상되었으며, 특히 자동인코더의 bottleneck 특징이 최종 성능에 4.7 %p 기여함을 확인하였다.
**
상세 분석
**
이 연구는 음악 장르 분류에서 흔히 발생하는 “특징 손실” 문제를 파이프라인 구조 자체를 재설계함으로써 완화하고자 한다. 기존 방법은 짧은 시간 프레임에서 추출한 물리·인식적 특징을 평균·표준편차와 같은 early temporal integration(Mean‑Var)으로 압축한 뒤, 바로 분류기에 전달한다. 그러나 이 과정은 정보 손실을 피할 수 없으며, 특징 간 비선형 상관관계를 반영하지 못한다는 한계가 있다.
저자들은 이를 해결하기 위해 두 개의 순환 루프와 역방향 화살표를 도입하였다. 첫 번째 루프는 50 ms 프레임(50 % 오버랩)에서 14개의 기본 특징(Compactness, Energy, RMS 등)과 파생 특징을 추출하고, 텍스처 윈도우(1 s) 단위로 평균·표준편차를 계산한다. 여기서 얻어진 중간 특징 벡터는 바로 분류에 사용되지 않고, Random Forest 기반의 임시 분류기에 투입돼 각 특징의 정보이득(Information Gain)을 평가한다. 정보이득이 양수인 특징만을 선별함으로써 차원 축소와 동시에 예측력 높은 서브셋을 확보한다.
선별된 특징은 다시 오토인코더에 입력된다. 오토인코더는 대칭 구조(입력‑60‑20‑60‑출력)와 PReLU 활성화, 드롭아웃을 적용해 과적합을 방지한다. 특히 20차원의 bottleneck 레이어는 입력 특징들의 비선형 관계를 저차원에 압축한다. 이 레이어의 출력값은 원본 특징에 추가적으로 결합되어 최종 피처 벡터를 형성한다. 이렇게 구성된 피처는
댓글 및 학술 토론
Loading comments...
의견 남기기