리듬존 이론: 말의 리듬은 물리적 현상이다
초록
본 논문은 인간의 주관적 판단을 배제하고, 음성 신호의 진폭 envelope 스펙트럼에 에지 검출을 추가한 ‘리듬존 이론(RZT)’을 제안한다. 0‑20 Hz 저주파 영역을 여러 리듬존으로 구분하고, 각 구역의 경계(에지)를 자동으로 탐지함으로써 원어민과 비원어민(광동어 배경의 저숙련 영어 학습자) 읽기 음성의 리듬 차이를 정량화한다. 실험 결과, RZT는 두 하위 장르를 구별할 수 있음을 보여주지만, 비유창 학습자의 복합적 비유창성 요인을 완전히 포착하기 위해서는 추가적인 정교화가 필요함을 제시한다.
상세 분석
리듬존 이론(RZT)은 기존의 ‘리듬 메트릭’(예: nPVI, Pairwise Variability Index)과 달리, 인간이 라벨링한 음성 구간에 의존하지 않는다. 저주파(0‑20 Hz) 진폭 envelope를 Hilbert 변환 혹은 피크 트레이싱으로 추출한 뒤, FFT를 적용해 Amplitude Envelope Spectrum(AES)를 얻는다. 여기서 핵심은 AES에 대한 에지 검출이다. 저주파 스펙트럼을 차분(differencing)하여 급격한 변화점, 즉 리듬존 경계(Rhythm Zone Edge, RZE)를 식별한다. 이러한 경계는 서로 다른 시간‑스케일(음소, 음절, 단어, 구 등)의 주기성을 반영한다는 가정 하에, “리듬존”이라는 개념으로 구간을 나눈다.
실험에서는 ‘1부터 30까지 빠르게 세기’라는 통제된 과업을 사용해 10초 내외의 녹음을 수집했고, 미국 원어민과 광동어 배경의 저숙련 영어 학습자 두 그룹을 비교하였다. AES와 AEDS(Amplitude Envelope Difference Spectrum)를 시각화한 결과, 원어민은 명확한 피크와 뚜렷한 에지(예: 3 Hz, 5 Hz 등)를 보이며, 리듬이 비교적 규칙적이었다. 반면 학습자 그룹은 피크가 분산되고 에지가 흐릿해, 비유창성(멈춤, 재시작, 삽입어)으로 인한 저주파 변동이 섞여 있음을 확인했다.
논문은 RZT가 “리듬존”이라는 다중 주기성을 동시에 포착함으로써, 기존의 단일 지표(nPVI 등)보다 풍부한 정보를 제공한다는 점을 강조한다. 그러나 현재 사용된 차분 기반 에지 검출은 잡음에 민감하고, 비유창성에 따른 비정형 변동을 완전히 구분하지 못한다. 향후에는 멀티스케일 웨이브릿 변환, 동적 시간 왜곡(DTW) 기반 경계 탐지, 그리고 비정상 구간(멈춤, 재시작)에 대한 별도 모델링이 필요하다. 또한, 리듬존을 언어학적 단위(음절, 보행, 구)와 직접 매핑하는 작업이 진행돼야 하며, 이를 통해 자동화된 유창성 평가 지표로 활용될 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기