헤웰리 방언 식별을 위한 ANN·CNN·RNN 성능 비교 연구
초록
본 논문은 쿠르드어 소라니 방언 중 헤웰리 방언을 대상으로, 40명의 원어민·비원어민 화자를 24시간 이상 녹음한 음성 데이터를 구축하고, 인공신경망(ANN), 합성곱신경망(CNN), 순환신경망(RNN) 세 모델을 1~60초 구간으로 나누어 66가지 실험을 수행하였다. 5초 구간에서 RNN이 95.92%의 최고 정확도를 기록했으며, 데이터 불균형을 해결하기 위한 오버·언더샘플링과 교차검증 결과도 제시한다.
상세 분석
이 연구는 저자들이 쿠르드어 소라니 방언의 하위 방언인 헤웰리 방언에 대한 최초의 음성 기반 NLI(Native Language Identification) 데이터셋을 구축한 점에서 의미가 크다. 40명의 참여자를 대상으로 23시간 27분 22초에 달하는 녹음 파일을 수집했으며, 원어민 19명·비원어민 21명으로 구성된 균형 잡히지 않은 클래스 분포를 오버샘플링(네이티브 클래스 복제)과 언더샘플링(비네이티브 클래스 축소)으로 조정하였다. 음성 전처리는 배경소음 제거, 정규화, 스테레오→모노 변환, 44.1 kHz 샘플링 등 표준 절차를 따랐으며, MFCC(멜 주파수 켑스트럼 계수)를 특징으로 추출하였다.
세 모델의 구조는 다음과 같다. ANN은 입력층–은닉층–출력층의 전형적인 완전 연결 형태이며, 활성화 함수와 드롭아웃을 적용해 과적합을 방지하였다. CNN은 1차원 컨볼루션 레이어와 풀링 레이어를 겹쳐 시계열 특성을 지역적으로 포착하고, 마지막에 전결합 레이어를 두어 분류했다. RNN은 LSTM 셀을 기반으로 하여 시간 의존성을 장기적으로 학습하도록 설계했으며, 특히 짧은 구간(3~10초)에서 방언 특유의 억양·음소 변화를 효과적으로 인식한다는 점이 강조된다.
실험 설계는 1초, 3초, 5초, 10초, 20초, 30초, 60초의 7가지 세그먼트 길이와 80:10:10(학습:검증:테스트) 및 80:20(학습:테스트) 데이터 분할 방식을 조합해 총 66개의 실험을 수행했다. 조기 종료(Early Stopping)를 patience 10 에폭으로 적용해 과적합을 억제했으며, 교차 엔트로피 손실과 정확도를 주요 평가지표로 사용했다. 결과는 짧은 구간일수록 정확도가 높아지는 경향을 보였으며, 특히 5초 구간에서 RNN이 95.92%의 최고 정확도를 달성했다. ANN은 동일 구간에서 82.92%, CNN은 10초 구간에서 94.47%를 기록했다. 60초 구간에서는 모든 모델의 성능이 급격히 저하돼 RNN이 70.54%, CNN이 79.65%에 머물렀다. 이는 장시간 구간이 방언 특성을 희석시키고, 모델이 장기 의존성을 효과적으로 학습하지 못함을 시사한다.
또한 k‑fold 교차 검증을 적용한 결과, RNN의 일반화 성능은 95.92%에서 약 0.8% 감소한 95.1% 수준으로, 데이터 분할 방식에 크게 좌우되지 않음을 확인했다. 모델 학습 시간 측면에서는 ANN이 가장 빠르지만 정확도는 낮고, CNN은 중간 수준, RNN이 가장 오래 걸리지만 정확도가 가장 높았다.
이 논문은 저자들이 제시한 데이터셋이 향후 쿠르드어 방언 연구, 음성인식, 포렌식 언어학 등에 활용될 수 있음을 강조한다. 특히 저자들은 데이터셋이 공개될 경우, 다국어·다방언 NLI 연구의 기반이 될 것이며, 소수 언어·방언에 대한 딥러닝 접근법의 가능성을 보여준다. 한계점으로는 참여자 수가 40명에 불과해 일반화에 제약이 있으며, 비원어민의 언어 수준(예: 영어·아라비아어 구사 능력) 차이가 모델에 미치는 영향을 추가로 분석할 필요가 있다. 향후 연구에서는 더 다양한 연령·성별·사회경제적 배경을 포함하고, Transformer 기반 모델을 도입해 성능을 비교하는 것이 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기