실수에서 쿼터니언 인코더를 활용한 음성인식
본 논문은 실수 형태의 멜 필터뱅크 특징을 직접 입력으로 받아, 실수‑투‑쿼터니언(R2H) 인코더를 통해 잠재적인 쿼터니언 표현으로 변환한 뒤, QLSTM에 적용함으로써 파라미터 수는 크게 줄이면서도 TIMIT 및 Librispeech에서 기존 실수 LSTM과 동등하거나 더 나은 인식 성능을 달성한 연구이다.
저자: Titouan Parcollet, Mohamed Morchid, Georges Linar`es
본 논문은 현대 자동 음성 인식(ASR) 시스템에서 딥 뉴럴 네트워크, 특히 순환 신경망(RNN)의 핵심 역할을 재조명하고, 입력 특징을 다차원 대수 구조인 복소수·쿼터니언으로 표현함으로써 모델의 압축성 및 표현력을 향상시킬 수 있음을 기존 연구에서 확인한다. 특히, quaternion‑valued neural networks(QNNs)는 멜‑필터뱅크와 그 시간 미분값을 하나의 쿼터니언으로 결합해 내부 의존성(동일 프레임 내 값과 미분 간 관계)과 전역 의존성(프레임 간 관계)을 동시에 학습함으로써, 동일한 실수‑기반 모델 대비 파라미터 수를 최대 4배까지 감소시키면서도 인식 정확도를 높인다. 그러나 QNNs는 입력이 반드시 사전에 정의된 쿼터니언 형태여야 한다는 제한이 있다. 즉, 실수 형태의 전통적인 특징(예: 40차원 로그 멜 필터뱅크)을 바로 사용할 수 없으며, 여러 뷰(시간, 주파수, 파생 등)를 조합하는 과정이 고정되어 학습 과정에서 최적의 조합을 탐색하기 어렵다.
이 문제를 해결하기 위해 저자들은 Real‑to‑H‑space(R2H) 인코더를 제안한다. R2H는 일반적인 실수 입력을 받아 전결합(Dense) 레이어를 통과시킨 뒤, 쿼터니언 활성화 함수와 정규화 과정을 거쳐 단위 쿼터니언 벡터를 출력한다. 이때 레이어의 뉴런 수는 4의 배수여야 하며, 출력은 r, x i, y j, z k 네 개의 실수 성분으로 분할된다. 활성화 함수는 Tanh, HardTanh, ReLU를 실험했으며, Tanh가 가장 좋은 성능을 보였다. 이는 Tanh가 출력 범위를 제한해 정규화 단계에서 값이 과도하게 확대되는 현상을 방지하고, gradient 흐름을 부드럽게 유지하기 때문이다. ReLU는 비한정적인 양수값을 생성해 정규화 후 정보 손실이 발생, 성능이 저하되는 것으로 나타났다.
인코더 뒤에는 기존 연구에서 제안된 quaternion LSTM(QLSTM)이 배치된다. QLSTM은 모든 파라미터(입력, 가중치, 편향)를 쿼터니언 형태로 유지하고, Hamilton 곱을 이용해 연산한다. 게이트 구조는 실수 LSTM과 동일하게 sigmoid와 tanh split‑activation을 사용한다. 양방향 구조를 채택해 과거와 미래 정보를 모두 활용한다. 모델 구성은 4개의 양방향 QLSTM 레이어, 각 레이어당 256개의 쿼터니언 뉴런(실수 기준 1024)이며, 최종 출력은 Kaldi HMM 상태와 연결된 실수 레이어이다. 학습은 Adam 옵티마이저와 0.2 dropout을 사용했으며, 30 epoch 동안 진행하고 검증 손실이 일정 기준 이하로 떨어지면 학습률을 절반으로 감소시켰다.
실험은 두 가지 데이터셋에서 수행되었다. 첫 번째는 TIMIT(3,696 훈련 문장, 192 테스트 문장)이며, 40차원 로그 멜 필터뱅크를 입력으로 사용했다. 기존 QLSTM은 시간 1·2·3차 미분을 포함한 4차원 쿼터니언 입력을 사용했으나, 본 연구에서는 R2H 인코더가 직접 40차원 실수 특징을 잠재 쿼터니언으로 변환한다. 다양한 인코더 크기(256, 512, 1024)와 활성화 함수를 비교한 결과, 1024 뉴런·Tanh 조합이 가장 낮은 PER 15.4 %를 기록했다. 이는 동일 파라미터 규모의 실수 LSTM(15.4 %)과 동등하면서도 파라미터 수는 46 M 대비 15.5 M으로 3배 절감된 결과이다. 또한, 기본 QLSTM(입력 직접 쿼터니언 변환)보다 0.5 %p 정도 개선되었으며, 정규화된 R2H‑QLSTM이 비정규화 모델보다 0.3 %p 더 좋은 성능을 보였다.
두 번째 실험은 Librispeech(960 h 전체 중 100 h만 사용)에서 진행되었다. 동일한 모델 설정을 적용했으며, 테스트 셋에서 WER는 R2H‑QLSTM이 6.2 %를 달성해 실수 LSTM(6.5 %)보다 약간 우수했다. 이는 대규모 데이터에서도 인코더가 효과적으로 쿼터니언 표현을 학습함을 의미한다.
전체적으로 이 논문은 (1) 실수 입력을 학습 가능한 방식으로 쿼터니언으로 변환하는 R2H 인코더 설계, (2) 활성화 함수와 정규화가 성능에 미치는 영향을 정량적으로 분석, (3) 파라미터 효율성을 크게 유지하면서도 기존 실수 기반 모델과 동등하거나 더 나은 인식 정확도를 달성한다는 세 가지 주요 기여를 제시한다. 향후 연구 방향으로는 다중 뷰 자동 학습, 배치 정규화, 스피커 적응, 그리고 대규모 멀티태스크 학습과 결합한 보다 일반화된 음성 인식 파이프라인 구축이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기