원시 음성으로 도메인 불변 특징 학습: 적대적 네트워크 기반 자동 음성 인식 향상

본 논문은 원시 파형을 입력으로 하는 다중 레이어 CNN 기반 특징 추출기에 도메인 적대 학습(DANN)을 적용해 성별·억양 차이와 같은 음성 도메인 변이를 최소화한다. TIMIT과 VoxForge 데이터셋에서 남·여 화자 및 미국·영국 억양을 각각 소스·타깃 도메인으로 설정해 실험했으며, 도메인 적응을 거친 모델이 비적응 모델보다 인식 오류율(PER·WER)을 현저히 낮추는 것을 확인하였다.

저자: Aditay Tripathi, Aanchan Mohan, Saket An

원시 음성으로 도메인 불변 특징 학습: 적대적 네트워크 기반 자동 음성 인식 향상
본 논문은 자동 음성 인식(ASR) 시스템이 직면하는 주요 문제 중 하나인 ‘도메인 변이’를 무감독 방식으로 완화하기 위해, 원시 음성 파형을 직접 입력으로 사용하는 적대적 학습 모델을 제안한다. 기존 ASR 연구에서는 주로 로그멜(MFCC) 같은 전처리된 스펙트럼 특징을 사용했으며, 이러한 특징은 도메인 변이에 민감해 별도의 라벨링된 적응 데이터가 필요했다. 최근에는 원시 파형을 활용한 딥러닝 기반 음향 모델링이 활발히 연구되고 있으나, 도메인 적응을 위한 체계적인 접근은 부족했다. 이에 저자들은 Domain Adversarial Neural Network(DANN) 구조를 원시 파형 기반 CNN에 적용함으로써, 라벨 분류와 도메인 분류라는 두 목표를 동시에 최적화한다. DANN은 Y‑shape 네트워크로, 공통 특징 추출기(G_f)와 라벨 분류기(G_y), 도메인 분류기(G_d)로 구성된다. 특징 추출기는 1‑D 컨볼루션 레이어 두 개와 평균 풀링·ReLU를 포함한 구조이며, 입력은 10 ms 프레임을 31개(≈310 ms) 연속으로 쌓아 만든 원시 파형 벡터이다. 라벨 분류기는 소스 도메인(예: 남성 화자)에서 제공되는 정답 라벨을 이용해 교차 엔트로피 손실을 최소화하고, 도메인 분류기는 소스와 타깃(예: 여성 화자) 데이터를 모두 사용해 도메인 라벨(0/1)을 예측한다. 여기서 Gradient Reversal Layer(GRL)를 도메인 분류기 앞에 삽입해 역전파 시 도메인 손실의 부호를 반전시킴으로써, 특징 추출기가 도메인 구분이 어려운 표현을 학습하도록 만든다. 학습 목표는 전체 손실 E = ∑ L_y − λ∑ L_d 로 정의되며, λ는 라벨 손실과 도메인 손실의 가중치를 조절한다. 초기 학습 단계에서는 λ를 0에 가깝게 두어 라벨 분류에 집중하고, 학습이 진행됨에 따라 λ를 1에 가깝게 증가시켜 도메인 적응을 강화한다. 또한, 도메인 라벨을 10 % 확률로 뒤섞어 학습 안정성을 도모한다. 최적화는 모멘텀을 포함한 SGD를 사용하고, 학습률은 p에 따라 감소하는 스케줄을 적용한다. 실험은 두 개의 대표적인 도메인 변이, 즉 화자 성별과 억양 차이를 대상으로 수행되었다. 첫 번째 실험에서는 TIMIT 데이터셋을 이용해 남성 화자를 소스, 여성 화자를 타깃으로 설정하였다. 두 번째 실험에서는 VoxForge 데이터셋에서 미국 억양을 소스, 영국 억양을 타깃으로 교차 실험을 진행하였다. 각 실험에서 원시 파형 기반 DANN 모델과 비교 대상으로 (1) 동일 구조이지만 MFCC 입력을 사용한 모델, (2) 라벨 데이터만 사용해 학습한 비적응 모델을 포함하였다. 성별 실험 결과, 원시 파형 기반 DANN은 소스(남성) 테스트에서 PER 21.25 % → 24.63 %(비적응 대비 약 3.4 % 절감), 타깃(여성) 테스트에서 PER 23.21 % → 25.37 %(약 2.2 % 절감)를 기록했다. MFCC 기반 동일 실험에서는 PER 감소폭이 33.825 % → 31.375 %에 그쳐 상대적 개선이 적었다. 억양 실험에서도 DANN은 미국→영국, 영국→미국 순으로 각각 WER 31.5 % → 28.9 % 및 34.2 % → 30.1 %로 감소하였다. 이는 원시 파형에서 직접 학습된 특징이 도메인 변이에 더 강인함을 보여준다. 또한, 소스와 타깃 데이터를 모두 라벨링하여 학습한 ‘하한’ 모델과 비교했을 때, DANN은 라벨이 없는 타깃 데이터만을 활용함에도 불구하고 상당히 근접한 성능을 달성했다. 이는 무감독 도메인 적응이 실제 서비스 환경에서 라벨링 비용을 크게 절감할 수 있음을 시사한다. 논문의 기여는 다음과 같다. 첫째, 원시 음성 파형을 입력으로 하는 DANN 모델을 설계·구현하여 전통적인 스펙트럼 특징에 의존하지 않는 도메인 불변 특징 학습을 가능하게 했다. 둘째, 성별·억양이라는 실제 음성 인식 현장에서 흔히 발생하는 도메인 변이에 대해 무감독 적응을 성공적으로 수행함으로써, 라벨이 없는 타깃 데이터만으로도 인식 정확도를 크게 향상시켰다. 셋째, 실험을 통해 원시 파형 기반 접근법이 MFCC 기반 대비 도메인 적응 효율이 높으며, 기존 적응 기법(예: fMLLR, i‑Vector 등)과 달리 별도의 라벨링이 필요 없다는 장점을 입증했다. 향후 연구 방향으로는 (1) 배경 잡음·채널 변이와 같은 더 복잡한 도메인 변이에 대한 확장, (2) 대규모 실시간 스트리밍 환경에서의 효율적인 구현, (3) 기존 적응 기법과의 하이브리드 모델링을 통한 성능 극대화 등이 제시된다. 이러한 연구는 무감독 도메인 적응을 통한 비용 효율적인 ASR 시스템 구축에 중요한 발판이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기