음성·화자 인식을 위한 다중작업 순환 신경망
본 논문은 음성 인식(ASR)과 화자 인식(SRE)을 하나의 통합 모델로 동시에 수행하도록 설계한 다중작업 순환 신경망(Multi‑task Recurrent Network)을 제안한다. 두 작업의 출력이 서로의 입력으로 피드백되는 구조를 도입해, 서로 부정적인 상관관계를 갖는 두 과제가 공동 학습 시 성능 향상을 얻을 수 있음을 WSJ 데이터베이스 실험을 통해 입증한다.
저자: Zhiyuan Tang, Lantian Li, Dong Wang
본 논문은 인간이 말을 들을 때 동시에 내용과 화자 정보를 파악한다는 사실에 착안해, 음성 인식(ASR)과 화자 인식(SRE)을 하나의 신경망으로 공동 학습시키는 새로운 프레임워크를 제안한다. 기존 연구들은 두 작업을 별도로 설계·학습하고, 때때로 후처리 단계에서 결과를 결합하는 수준에 머물렀지만, 본 연구는 진정한 다중작업 학습(Multi‑task Learning) 접근법을 도입한다.
먼저, 두 작업이 “부정적 상관관계”를 가진다는 점을 강조한다. ASR은 발음 내용에 초점을 맞추어 화자 변이를 최소화하려 하고, SRE는 화자 특성을 강조하기 위해 언어 내용의 변동을 억제한다. 이러한 특성 때문에 전통적인 저수준 특징(예: MFCC) 공유 방식은 효과적이지 않다. 대신, 저자는 각 작업의 고수준 출력(전화 포스터리어 혹은 화자 포스터리어)을 이전 시점의 정보로 저장하고, 이를 다른 작업의 현재 입력에 피드백하는 ‘inter‑task recurrent’ 구조를 설계했다.
구체적인 모델은 LSTM 기반이다. 두 개의 동일한 LSTM 블록(하나는 ASR, 다른 하나는 SRE)이 동일한 입력(Fbank) 시퀀스를 받아 각각 전화 라벨과 화자 라벨을 예측한다. 각 블록은 기존 LSTM과 동일하게 입력 게이트(i_t), 포게이트(f_t), 출력 게이트(o_t), 셀 상태(c_t), 셀 출력(m_t) 등을 포함한다. 여기서 중요한 변화는 두 블록 사이에 추가된 연결이다. 예를 들어, ASR 블록의 recurrent projection r_t^a와 non‑recurrent projection p_t^a를 SRE 블록의 비선형 함수 g(·)에 가중치 행렬을 통해 전달한다. 반대 방향도 동일하게 설정한다. 이렇게 하면 시간 t‑1에 얻은 ASR 정보가 시간 t에 SRE의 내부 연산에 영향을 미치고, 그 반대도 마찬가지다.
피드백 정보를 어디에서 추출하고 어디에 주입할지는 여러 옵션이 있다. 논문에서는 (1) 피드백 원천: r_t와 p_t, (2) 피드백 수신부: 입력 게이트(i_t), 포게이트(f_t), 출력 게이트(o_t), 혹은 비선형 함수 g(·) 등으로 구성된 조합을 실험했다. 실험 결과, 대부분의 조합에서 단일 작업 모델 대비 WER와 EER 모두 감소했으며, 특히 r_t만을 피드백으로 사용했을 때 가장 일관된 개선을 보였다.
실험은 WSJ 데이터베이스를 사용했다. 학습에는 train_si284의 90%를 사용했으며, 테스트는 dev93, eval92, eval93 세 파트로 구성된 27명, 1,049개의 발화로 이루어졌다. ASR 베이스라인은 Kaldi의 WSJ s5 nnet3 레시피를 기반으로 단일 LSTM 레이어(셀 차원 1024, projection 256)를 사용했으며, WER는 7.41%(eval93) 수준이었다. SRE 베이스라인은 i‑vector(200 차원)와 r‑vector(256 차원) 두 가지를 비교했으며, i‑vector+PLDA가 0.57% EER로 가장 우수했다.
다중작업 모델은 다양한 피드백 구성을 테스트했으며, 표 III에 제시된 바와 같이 WER는 7.05%~7.28% 사이, EER는 0.55%~0.71% 사이로 변동했다. 가장 좋은 조합(피드백을 입력 게이트와 g(·)에 적용, r_t만 사용)에서는 ASR WER가 7.05%로 베이스라인 대비 0.36%p 감소하고, SRE EER가 0.55%로 i‑vector+PLDA 대비 0.02%p 개선되었다. 이는 부정적 상관관계 작업이라도 적절한 정보 교환 메커니즘을 통해 서로를 보강할 수 있음을 실증한다.
논문은 또한 피드백을 모든 게이트와 g(·)에 동시에 주입하는 경우가 입력 변수 x에 직접 정보를 추가하는 효과와 동일함을 확인했다. 이는 구현상의 편의성을 제공한다는 점에서 의미가 있다. 또한, 비재귀 projection p_t를 추가로 활용했을 때 일관된 이득이 없었으며, 이는 현재 데이터 규모가 제한적이기 때문일 가능성이 있다.
결론적으로, 본 연구는 부정적 상관관계를 가진 두 음성 처리 작업을 하나의 순환 신경망으로 통합 학습시킴으로써 각각의 성능을 동시에 향상시킬 수 있음을 보여준다. 향후 연구에서는 피드백 지연(delay) 조절, 라벨이 부분적으로만 존재하는 데이터 활용, 그리고 감정 인식·언어 식별 등 다른 부정적 상관관계 작업에 대한 확장 가능성을 탐구할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기