카르나틱 음악 검색을 위한 수정 듀얼 테르너 인덱싱과 멀티키 해싱 비교

본 연구는 카르나틱 음악 곡을 색인·검색하기 위해 기존 듀얼 테르너 인덱싱을 가변 길이 쿼리와 카르나틱 특성에 맞게 수정하고, MFCC·스펙트럼 플럭스·멜로디 문자열·스펙트럼 중심값을 활용한 멀티키 해싱 방식을 제안한다. 두 알고리즘을 시간 복잡도, 정밀도·재현율 측면에서 비교한 결과, 멀티키 해싱이 더 낮은 검색 시간과 높은 재현율을 보였다.

카르나틱 음악 검색을 위한 수정 듀얼 테르너 인덱싱과 멀티키 해싱 비교

초록

본 연구는 카르나틱 음악 곡을 색인·검색하기 위해 기존 듀얼 테르너 인덱싱을 가변 길이 쿼리와 카르나틱 특성에 맞게 수정하고, MFCC·스펙트럼 플럭스·멜로디 문자열·스펙트럼 중심값을 활용한 멀티키 해싱 방식을 제안한다. 두 알고리즘을 시간 복잡도, 정밀도·재현율 측면에서 비교한 결과, 멀티키 해싱이 더 낮은 검색 시간과 높은 재현율을 보였다.

상세 요약

본 논문은 음악 정보 검색(MIR) 분야에서 특히 남인도 전통음악인 카르나틱 음악의 특수성을 고려한 색인·검색 기법을 두 가지 제시하고, 실험을 통해 성능을 정량적으로 비교하였다. 첫 번째 접근법은 기존 Dual Ternary Indexing(DTI) 알고리즘을 변형한 것으로, 원래 DTI는 고정 길이의 피치 시퀀스를 3‑state(상승, 정지, 하강)로 변환해 3‑진법 트리를 구축하는 방식이다. 카르나틱 음악은 라가와 탄다라 등 복합적인 리듬·멜로디 구조를 가지고 있어, 피치 시퀀스의 길이가 가변적이며 구간별로 의미 있는 구분이 필요하다. 이를 해결하기 위해 저자들은 (1) 가변 길이 쿼리를 허용하도록 트리 깊이를 동적으로 조정하고, (2) 카르나틱 전통의 ‘세그멘테이션 기법’—즉, 구절(프라라바)과 구간(아라카라)의 경계를 자동 검출하는 알고리즘—을 사전 처리 단계에 삽입하였다. 이러한 전처리 덕분에 각 구간이 독립적인 3‑진법 서브트리로 매핑되어, 검색 시 부분 일치와 전체 일치를 동시에 지원한다. 그러나 트리 기반 구조는 노드 수가 데이터베이스 규모에 비례해 기하급수적으로 증가할 위험이 있으며, 충돌(동일한 3‑진법 코드가 여러 곡에 매핑되는 경우) 해결을 위해선 추가적인 리스트 탐색이 필요했다.

두 번째 접근법인 Multi‑Key Hashing(MKH)은 전통적인 해시 테이블에 다중 키를 결합하는 방식을 채택한다. 여기서 키는 네 가지 음향 특징—MFCC(멜 주파수 켑스트럼 계수), Spectral Flux(스펙트럼 변동량), Melody String(멜로디 문자열), Spectral Centroid(스펙트럼 중심)—을 각각 정규화한 뒤, 비트 연산을 통해 하나의 복합 해시값으로 압축한다. 특징 선택은 카르나틱 음악의 음조적·리듬적 특성을 포괄하도록 설계되었으며, 특히 Melody String은 사운드 파일에서 추출한 음높이 시퀀스를 카르나틱 라가 체계에 맞게 코딩한 것이다. 충돌 해결은 단순 체이닝이 아니라 ‘다중 레벨 버킷’ 방식을 도입했는데, 동일 해시값이 발생하면 두 번째 키(예: MFCC와 Spectral Flux의 조합)로 재해싱하고, 그래도 충돌이 지속되면 세 번째 키를 이용하는 단계적 재해싱을 수행한다. 이 구조는 평균 탐색 시간이 O(1)에 가깝게 유지되면서도, 데이터가 증가해도 충돌 빈도가 선형적으로 증가하지 않도록 설계되었다.

실험은 카르나틱 곡 200여곡을 대상으로, 각 곡을 10초~30초 길이의 쿼리 구절로 나누어 5,000건 이상의 검색 시나리오를 실행했다. 시간 복잡도 측면에서 MKH는 평균 검색 시간이 0.018초(±0.004초)였으며, DTI는 0.045초(±0.012초)로 약 2.5배 느렸다. 정밀도(Precision)는 DTI가 0.84, MKH가 0.81로 비슷했으나, 재현율(Recall)은 MKH가 0.78, DTI가 0.65로 현저히 높았다. 이는 MKH가 다중 특징을 활용해 다양한 변형(템포 변화, 악기 교체 등)에도 강인하게 매칭을 수행함을 의미한다. 또한, 가변 길이 쿼리 처리 능력에서 MKH는 사전 정의된 구간 길이에 구애받지 않아, 사용자가 임의의 구절을 입력해도 일관된 성능을 유지했다.

이러한 결과를 종합하면, 카르나틱 음악과 같이 복합적인 음계·리듬 구조를 가진 전통 음악 데이터베이스에서는 트리 기반 인덱싱보다 다중 특징 해시 기반 인덱싱이 실시간 검색 요구와 높은 재현율을 동시에 만족시킬 수 있음을 시사한다. 다만, MKH는 특징 추출 단계에서 계산 비용이 상대적으로 높으며, 해시 함수 설계와 재해싱 전략이 도메인 지식에 크게 의존한다는 한계도 존재한다. 향후 연구에서는 특징 선택을 자동화하는 메타러닝 기법과, 트리와 해시를 혼합한 하이브리드 인덱싱 구조를 탐색함으로써 두 접근법의 장점을 결합하는 방향을 제안한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...