Bottleneck Transformer 기반 자동 STOI 점수 예측 개선
본 논문은 기존 비침습적 음성 인텔리전스 평가 모델의 한계를 극복하고자, 컨볼루션 블록과 다중 헤드 셀프 어텐션을 결합한 Bottleneck Transformer 구조를 제안한다. 세 가지 종류의 입력 특징(SSL 임베딩, 스펙트로그램, 컨볼루션 전처리된 특징)을 활용해 프레임‑레벨 정보를 효과적으로 압축하고, 전역 컨텍스트를 포착한다. 5‑fold 교차 검증과 다중 언어·노이즈 조건의 unseen 테스트에서 제안 모델은 기존 STOI‑Net …
저자: Amartyaveer, Murali Kadambi, Ch
본 논문은 비침습적 음성 인텔리전스 평가 지표인 Short‑Time Objective Intelligibility(STOI)를 자동으로 예측하기 위한 새로운 딥러닝 프레임워크를 제안한다. 기존 STOI 계산은 깨끗한 레퍼런스 음성이 필요해 실시간 서비스에 적용하기 어렵다는 문제점을 지적하고, 이를 해결하기 위해 컨볼루션 블록과 Bottleneck Transformer(BT)를 결합한 구조를 설계하였다.
**1. 연구 배경 및 기존 연구**
음성 품질·인텔리전스 평가는 주관적 평가와 객관적 평가로 나뉘며, 비침습적 객관적 평가는 레퍼런스 신호 없이도 점수를 예측한다. 기존 비침습 모델로는 Quality‑Net, STOI‑Net, MOSA‑Net, MTI‑Net 등이 있으며, 이들은 주로 STFT 스펙트로그램을 입력으로 CNN‑BiLSTM 혹은 멀티‑태스크 학습을 활용한다. 특히, 최근 SSL 기반 HuBERT, wav2vec2와 같은 사전학습 모델을 특징 추출기로 사용해 성능을 향상시킨 사례가 늘고 있다. 그러나 이러한 모델들은 복잡한 아키텍처와 많은 파라미터로 인해 연산 비용이 높고, 장기 컨텍스트를 충분히 포착하지 못한다는 한계가 있다.
**2. 제안 모델 설계**
제안 모델은 크게 네 부분으로 구성된다.
- **입력 특징**: (a) SSL 임베딩(wav2vec2‑small, HuBERT‑base) → 768‑1024 차원, (b) 원시 스펙트로그램(PS‑I, 257 차원), (c) STOI‑Net에서 차용한 컨볼루션 전처리(PS‑II), (d) QUAL‑Net에서 차용한 전처리(PS‑III).
- **Conv Block**: 1‑D Conv‑Layer 2개(채널 256→128, kernel=3)와 BatchNorm, GELU로 구성되어 입력 차원을 축소하고 초기 특징을 정제한다.
- **Bottleneck Transformer**: Conv Layer → Multi‑Head Self‑Attention → BatchNorm → Pooling → Residual 연결 → Up‑sampling Conv 로 이루어진 블록이다. Conv는 지역 정보를, MHSA는 전역 정보를 학습해 두 단계의 컨텍스트를 동시에 포착한다.
- **Dense Block**: 두 단계의 Fully‑Connected 레이어와 비선형 활성화, Global Average Pooling을 거쳐 최종 STOI 점수를 회귀한다.
손실 함수는 utterance‑level MSE이며, 프레임‑레벨 라벨이 필요 없다는 점이 실용성을 높인다.
**3. 데이터셋 구축 및 전처리**
STOI 라벨을 얻기 위해 자체 노이즈 데이터셋을 구축하였다. Indic TIMIT, LibriSpeech, RESPIN, Bhashini(힌디어) 등 네 개의 코퍼스를 사용해 청정 구간을 선정하고, GSM 채널 잡음, 리버버레이션, 라디오 잡음, 코덱 변형, 클리핑 등 5가지 잡음을 0‑20 dB SNR 범위에서 무작위 조합하였다. 총 12시간의 훈련 데이터와 5시간의 테스트 데이터를 확보했으며, 5‑fold 교차 검증을 통해 Seen 조건과 Unseen 조건(화자·발화는 다르지만 잡음 유형은 겹치는 경우)을 설정하였다.
**4. 실험 설정 및 결과**
Baseline은 STOI‑Net이며, 동일한 하드웨어(NVIDIA RTX A5000, 24 GB)에서 학습하였다. 주요 성능 지표는 LCC, SRCC, MSE이다. 결과는 다음과 같다.
- **SSL 입력**: wav2vec2와 HuBERT 모두 제안 모델에서 LCC 93.9 %·93.5 % (Baseline 92.7 %·91.6 %), SRCC 93.9 %·93.5 % (Baseline 92.7 %·91.5 %), MSE 0.0064·0.0065 (Baseline 0.0078·0.0088).
- **스펙트로그램 기반 입력**: PS‑I, PS‑II, PS‑III 모두 제안 모델이 Baseline보다 LCC·SRCC가 0.5 %~2 % 상승하고, MSE가 5 %~15 % 감소하였다. 특히 PS‑II 입력에서 가장 큰 개선을 보였다.
파라미터 수는 Table II에 제시된 바와 같이, 제안 모델이 모든 입력 유형에서 Baseline보다 30 %~40 % 적었다. 이는 BT가 고차원 특징을 효율적으로 압축하면서도 성능을 유지함을 의미한다.
**5. 논의 및 한계**
제안 모델은 다양한 특징을 통합해 전역·지역 정보를 동시에 학습함으로써 기존 CNN‑BiLSTM 기반 모델보다 높은 예측 정확도와 효율성을 달성했다. 그러나 SSL 임베딩에 대한 의존도가 높아 추론 시 연산 비용이 증가할 수 있다. 또한 Unseen 테스트는 잡음 유형이 훈련에 포함된 경우에 한정돼 있어, 완전한 잡음·언어·화자 외삽 상황에 대한 일반화 검증이 필요하다.
**6. 향후 연구 방향**
경량화된 SSL 모델(예: Distil‑wav2vec)과의 결합, 멀티‑태스크 학습을 통한 PESQ·WER·STOI 동시 예측, 그리고 실시간 서비스 적용을 위한 모델 압축 및 하드웨어 최적화가 제안된다. 또한, 다양한 언어·문화권 데이터와 실제 통신 환경에서의 현장 테스트를 통해 모델의 범용성을 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기