Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction
๐ Abstract
**
๋ณธ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด STOI(ShortโTime Objective Intelligibility) ์ ์ ๊ณ์ฐ์ ํ์์ ์ธ ๊นจ๋ํ ๋ ํผ๋ฐ์ค ์ ํธ ์์ด๋ ๋์ ์์ธก ์ ํ๋๋ฅผ ๋ณด์ด๋ ์๋ก์ด ๋น์นจ์
ํ ๋ชจ๋ธ์ ์ ์ํ๋ค. ํต์ฌ ์์ด๋์ด๋ ๋ณ๋ชฉ ํธ๋์คํฌ๋จธ(bottleneck transformer) ๋ฅผ ํ์ฉํ์ฌ ํ๋ ์โ๋ ๋ฒจ ํน์ง์ ์ถ์ถํ๋ Convolution Block ๊ณผ, ์ ์ญ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ MultiโHead SelfโAttention(MHSA) ๋ฅผ ๊ฒฐํฉํ๋ ๊ฒ์ด๋ค. ์
๋ ฅ์ผ๋ก๋ ์คํํธ๋ผ ํน์ฑ, SSL ๋ชจ๋ธ(HuBERT, Wav2Vec2) ์๋ฒ ๋ฉ ๋ฑ ๋ค์ํ ํํ๋ฅผ ์คํํ์ผ๋ฉฐ, ์ ์ ๋ชจ๋ธ์ ๊ธฐ์กด ์ต์ฒจ๋จ SSLโ๊ธฐ๋ฐ ๋ชจ๋ธ ๋๋น ์๊ด๊ณ์(LCC, SRCC)์ MSE ๋ชจ๋์์ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ํนํ, ํ๋ จ์ ์ฌ์ฉ๋์ง ์์ ํ์ยท๋ฐํยท๋
ธ์ด์ฆ ์กฐ๊ฑด(โUnseenโ ์๋๋ฆฌ์ค)์์๋ ๊ฒฌ๊ณ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์
์ฆํ์๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ์์ฑ
- ๋น์นจ์ ํ ํ๊ฐ์ ํ๊ณ: ์ ํต์ ์ธ STOI๋ ๊นจ๋ํ ๋ ํผ๋ฐ์ค๊ฐ ํ์ํด ์ค์ ์๋น์ค ํ๊ฒฝ์์ ์ ์ฉ์ด ์ด๋ ต๋ค.
- ๊ธฐ์กด ๋ฅ๋ฌ๋ ์ ๊ทผ: QualityโNet, STOIโNet, MOSAโNet ๋ฑ์ ์คํํธ๋ผยทSSL ํน์ฑ์ ์ด์ฉํ์ง๋ง, ์ ์ญโ์ง์ญ ์ ๋ณด๋ฅผ ๋์์ ํฌ์ฐฉํ๋ ๊ตฌ์กฐ๊ฐ ๋ถ์กฑํ๋ค.
2. ์ ์ ๋ชจ๋ธ ๊ตฌ์กฐ
| ๊ตฌ์ฑ ์์ | ์ญํ | ์ฃผ์ ํน์ง |
|---|---|---|
| Conv Block | ์ ๋ ฅ ํน์ฑ ์ฐจ์ ์ถ์ยท์ ์ | 1โD Convโฏรโฏ2, BatchNorm, GELU |
| Bottleneck Transformer | ์ง์ญ(Convolution) + ์ ์ญ(MHSA) ์ ๋ณด ํตํฉ | 3โstage: ConvโฏโโฏMHSAโฏโโฏConv, residual ์ฐ๊ฒฐ, 64โdim hidden |
| Dense Blocks | ์ต์ข STOI ์ ์ ํ๊ท | Global Pooling ํ 2โlayer MLP |
| ์ ๋ ฅ ํน์ฑ | ์คํํธ๋ผ(PSโI/II/III), SSL ์๋ฒ ๋ฉ(Wav2Vec2, HuBERT) | ๋ค์ํ ํน์ฑ ์คํ์ ํตํด ์ต์ ์กฐํฉ ํ์ |
- ๋ณ๋ชฉ ์ค๊ณ: Conv ๋ ์ด์ด๊ฐ ์ฐจ์์ ํฌ๊ฒ ์ค์ธ ๋ค, ์์ ์ฐจ์์์ MHSA๋ฅผ ์ํํด ์ฐ์ฐ๋์ ํฌ๊ฒ ์ ๊ฐํ๋ฉด์๋ ์ถฉ๋ถํ ์ ์ญ ์ปจํ ์คํธ๋ฅผ ํ์ตํ๋ค.
- Residual ์ฐ๊ฒฐ: ๊น์ ๋คํธ์ํฌ์์๋ ๊ทธ๋๋์ธํธ ์์ค์ ๋ฐฉ์งํ๊ณ ํ์ต ์์ ์ฑ์ ๋์ธ๋ค.
3. ๋ฐ์ดํฐ ๋ฐ ์คํ ์ค๊ณ
- ๋ฐ์ดํฐ: Indic TIMIT, LibriSpeech, RESPIN, Bhashini ๋ฑ 4๊ฐ ์ธ์ดยท๋๋ฉ์ธ ๋ฐ์ดํฐ์ ์ ํ์ฉ, 12โฏh ์ฒญ์ ๋ฐ์ดํฐ์ ๋ค์ํ ๋ ธ์ด์ฆยท์ฝ๋ฑยทํด๋ฆฌํ์ ์ธ์์ ์ผ๋ก ์ถ๊ฐํด ๋ค์ํ โSeenโ/โUnseenโ ์๋๋ฆฌ์ค ๊ตฌ์ฑ.
- ํ๊ฐ ์งํ: MSE, Pearsonโs LCC, Spearmanโs SRCC.
- ๋ฒ ์ด์ค๋ผ์ธ: STOIโNet (CNNโBiLSTMโAttention) ๋ฐ ์ต์ SSLโ๊ธฐ๋ฐ MOSAโNet/MTIโNet.
4. ์ฃผ์ ๊ฒฐ๊ณผ
| ์กฐ๊ฑด | LCC (์ ์) | LCC (๋ฒ ์ด์ค๋ผ์ธ) | SRCC (์ ์) | SRCC (๋ฒ ์ด์ค๋ผ์ธ) | MSE (์ ์) | MSE (๋ฒ ์ด์ค๋ผ์ธ) |
|---|---|---|---|---|---|---|
| Seen | 0.93โ0.95 | 0.88โ0.90 | 0.91โ0.94 | 0.85โ0.88 | 0.012 | 0.021 |
| Unseen | 0.90โ0.92 | 0.82โ0.85 | 0.88โ0.90 | 0.78โ0.81 | 0.015 | 0.028 |
- ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ: ์ ์ ๋ชจ๋ธ์ ๋ชจ๋ ํน์ฑ ์กฐํฉ์์ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค 30โฏ%~45โฏ% ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ฉด์๋ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค.
- ์ผ๋ฐํ: ํ์ยท์ธ์ดยท๋ ธ์ด์ฆ ์กฐํฉ์ด ์ ํ ๊ฒน์น์ง ์์ โUnseenโ ํ ์คํธ์์๋ ๋์ ์๊ด๊ณ์๋ฅผ ์ ์ง, ์ค์ ์๋น์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ค.
5. ๊ฐ์
- ์ ์ญโ์ง์ญ ์ ๋ณด ํจ์จ์ ๊ฒฐํฉ โ ๋ณ๋ชฉ ํธ๋์คํฌ๋จธ๊ฐ ์ฐ์ฐ๋์ ํฌ๊ฒ ๋๋ฆฌ์ง ์์ผ๋ฉด์๋ ์ ์ญ ์ปจํ ์คํธ๋ฅผ ํ์ต.
- ๋ค์ํ ์ ๋ ฅ ํน์ฑ ์คํ โ ์คํํธ๋ผ, SSL ์๋ฒ ๋ฉ, ํ์ต ๊ฐ๋ฅํ Convโ์ถ์ถ ํน์ฑ์ ๋ชจ๋ ๊ฒ์ฆ, ์ต์ ์กฐํฉ์ ์ ์.
- ๋ฐ์ดํฐ ๋ค์์ฑ โ ๋ค๊ตญ์ดยท๋ค๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ณตํฉ ๋ ธ์ด์ฆยท์ฝ๋ฑยทํด๋ฆฌํ์ ํฌํจํด ์ค์ ํ๊ฒฝ์ ์ ๋ชจ์ฌ.
- ๊ฒฝ๋ํ โ ํ๋ผ๋ฏธํฐ ์์ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ๋ฎ์ ์ค์๊ฐ ๋๋ ์๋ฒ ๋๋ ์์คํ ์ ์ ์ฉ ๊ฐ๋ฅ.
6. ํ๊ณ ๋ฐ ๊ฐ์ ์
- ๋ ํผ๋ฐ์ค STOI ๊ณ์ฐ ์์กด: ํ์ต ๋ผ๋ฒจ์ ์ฌ์ ํ ๊นจ๋ํ ๋ ํผ๋ฐ์ค์์ STOI ๊ณ์ฐ์ ๊ธฐ๋ฐํ๋ฏ๋ก, ๋ ํผ๋ฐ์ค๊ฐ ์ ํ ์๋ ์ํฉ์์ ๋ผ๋ฒจ์ ์ป๊ธฐ ์ด๋ ค์.
- ๋ ธ์ด์ฆ ์ ํ ํธํฅ: ์คํ์ ์ฌ์ฉ๋ ๋ ธ์ด์ฆ๋ MUSAN ๊ธฐ๋ฐ์ด๋ฉฐ, ์ค์ ํ์ฅ(์: ์ฐจ๋, ๊ณต์ฅ) ๋ ธ์ด์ฆ์ ์ฐจ์ด๊ฐ ์์ ์ ์๋ค.
- ์ธ์ดยท๋ฌธํ์ ์ผ๋ฐํ: ํ์ฌ๋ ์ธ๋ยท์์ดยทํ๋์ดยท๋ฒต๊ณจ์ด ๋ฑ ๋ช๋ช ์ธ์ด์ ๊ตญํ; ๋ค๋ฅธ ์ธ์ด(์: ์ํ๋ฆฌ์นด ์ธ์ด)์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ํ์.
- ํด์ ๊ฐ๋ฅ์ฑ: MHSA ๊ฐ์ค์น ์๊ฐํ ๋ฑ์ ํตํด ์ด๋ค ํ๋ ์์ด STOI ์์ธก์ ๊ฐ์ฅ ํฌ๊ฒ ๊ธฐ์ฌํ๋์ง ์ค๋ช ํ๋ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑ.
7. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ผ๋ฒจ๋ง ์์ด ์๊ธฐ์ง๋ ํ์ต: SSL ๋ชจ๋ธ์ ํ์ฉํด pseudoโSTOI ๋ผ๋ฒจ์ ์์ฑํ๊ฑฐ๋, ๋ฉํฐโํ์คํฌ(์: PESQ, WER)์ ๊ณต๋ ํ์ตํด ๋ผ๋ฒจ ์์กด์ฑ์ ๊ฐ์.
- ๋๋ฉ์ธ ์ ์: ์ ๋์ ํ์ต(Adversarial Domain Adaptation) ํน์ ๋ฉํโ๋ฌ๋์ ๋์ ํด ์๋ก์ด ๋ ธ์ด์ฆยท์ฝ๋ฑ ํ๊ฒฝ์ ๋น ๋ฅด๊ฒ ์ ์.
- ๊ฒฝ๋ํ ๋ฐ ํ๋์จ์ด ์ต์ ํ: ์์ํ(Quantization)ยทํ๋ฃจ๋(Pruning) ๊ธฐ๋ฒ์ ์ ์ฉํด ๋ชจ๋ฐ์ผ/์จ์ด๋ฌ๋ธ ๋๋ฐ์ด์ค์์ ์ค์๊ฐ ์ถ๋ก ๊ฐ๋ฅํ๋๋ก ๊ตฌํ.
- ํด์ ๊ฐ๋ฅ์ฑ ๊ฐํ: Attention ๋งต, Gradientโbased saliency ๋ฑ์ ์๊ฐํํด ๋ชจ๋ธ์ด ์ด๋ค ์๊ฐโ์ฃผํ์ ์์ญ์ ์ค์ ์ ์ผ๋ก ๋ณด๋์ง ๋ถ์.
**
๐ Full Content
์์ฑ ํ๊ฐ๋ ์์ฑ ์ ํธ์ ํ์ง, ๋ช ๋ฃ๋ ๋ฑ ๋ค์ํ ์์ฑ์ ํ๊ฐํ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค. ์์ฑ ํ๊ฐ ์งํ๋ ์์ฑ ์ ํธ์ ํน์ ์์ฑ์ ์ ๋์ ์ผ๋ก ์ธก์ ํ๋ ์งํ์ด๋ฉฐ, ํ๊ฐ ๋ฐฉ์์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋๋ฉ๋๋ค. ์ฌ๋์ ์ฒญ์ทจ๊ฐ ํ์ํ **์ฃผ๊ด์ ํ๊ฐ(Subjective Assessment)**์ ์ฒญ์ทจ์๋ฅผ ํ์๋ก ํ์ง ์๋ **๊ฐ๊ด์ ํ๊ฐ(Objective Assessment)**๊ฐ ๊ทธ๊ฒ์ ๋๋ค. ๊ฐ๊ด์ ํ๊ฐ๋ ๋ค์ ์นจ์ ํ(intrusive) ํ๊ฐ์ ๋น์นจ์ ํ(nonโintrusive) ํ๊ฐ๋ก ๊ตฌ๋ถ๋ฉ๋๋ค. ์นจ์ ํ ํ๊ฐ๋ ๊นจ๋ํ ๊ธฐ์ค(reference) ์ ํธ๊ฐ ์์ด์ผ ์ ์๋ฅผ ๊ณ์ฐํ ์ ์์ง๋ง, ๋น์นจ์ ํ ํ๊ฐ๋ ๊ธฐ์ค ์ ํธ๊ฐ ์์ด๋ ๋ฉ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋ค๋ฃจ๋ ๊ฒฝ์ฐ ๋๋ถ๋ถ ๊นจ๋ํ ๊ธฐ์ค ์ ํธ๋ฅผ ๊ตฌํ ์ ์์ผ๋ฏ๋ก, ์ฃผ๊ด์ ํ๊ฐ๋ ์นจ์ ํ ํ๊ฐ๋ฅผ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ์ธ๊ฐ ์ฒญ์ทจ ํ ์คํธ์ ์นจ์ ํ ํ๊ฐ๋ฅผ ๋์ ํ ์ ์๋ ์์ฑ ๋ช ๋ฃ๋(intelligibility) ์ถ์ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์ด ์์ต๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ
- **[1]**์์๋ QualityโNet์ ์ ์ํ์ต๋๋ค. ์คํํธ๋ก๊ทธ๋จ์ magnitude๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , ์๋ฐฉํฅ LSTM(BiLSTM) ๋ชจ๋์ ์ฐ๊ฒฐํ์ต๋๋ค. ๋ชฉํ ํจ์๋ก ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE)๋ฅผ ์ฌ์ฉํด ๋ฐํ(utterance) ์์ค์์ PESQ ์ ์๋ฅผ ์ถ์ ํ๋๋ก ํ์ตํ์ต๋๋ค.
- **[3]**์์๋ STOIโNet์ ์๊ฐํ์ต๋๋ค. ์ญ์ ์คํํธ๋ก๊ทธ๋จ magnitude๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ผ๋ฉฐ, CNNโฏ+โฏBiLSTM ๊ตฌ์กฐ์ multiplicative attention์ ๊ฒฐํฉํ CNNโBiLSTMโATTN ํํ์์ต๋๋ค. QualityโNet๊ณผ ๋์ผํ MSE ์์ค์ ์ฌ์ฉํ์ผ๋ฉฐ, ์ค์ STOI ์ ์์์ ์๊ด๊ด๊ณ๊ฐ ๋ ๋๊ฒ ๋ํ๋ฌ์ต๋๋ค.
- ์ดํ ๋ฉํฐโํ์คํฌ ์ค์ ์ ๋์ ํด STI, STOI, ์ธ๊ฐ ์ฒญ์ทจ ํ ์คํธ ์ ์ ๋ฑ์ ๋์์ ์์ธกํ๋ ์ฐ๊ตฌ๊ฐ ์ด์ด์ก์ต๋๋ค.
- **MOSAโNet[5]**์ **crossโdomain ํน์ง(์คํํธ๋ผยท์๊ฐ ํน์ง)**๊ณผ **SelfโSupervised Learning(SSL) ๋ชจ๋ธ์ธ HuBERT[6]**์ ์ ์ฌ ํํ์ ๊ฒฐํฉํด **๊ฐ๊ด์ ํ์ง(PESQ)**๊ณผ **๋ช ๋ฃ๋(STOI)**๋ฅผ ๋์์ ์์ธกํ์ต๋๋ค. MOSAโNet์ PESQ์ STOI๋ฅผ ๋์ ์ ํ๋๋ก ์์ธกํ์ผ๋ฉฐ, ์ดํ **MTIโNet[7]**์ด ์ ์๋์ด ์ฃผ๊ด์ ๋ช ๋ฃ๋(SI), STOI, WER๋ฅผ ํ ๋ฒ์ ์์ธกํ๋๋ก ํ์ฅ๋์์ต๋๋ค.
MOS ์์ธก ๋ถ์ผ์์๋ ํ๋ฐํ ์ฐ๊ตฌ๊ฐ ์งํ๋์์ต๋๋ค.
- MOSโNet[8]: CNNโBiLSTM ๊ธฐ๋ฐ์ผ๋ก ์์ฑ ํ์ง์ ์ถ์ .
- MBโNet[9]: ๋ ๊ฐ์ ์๋ธ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํด ๋ฐํ ํ๊ท ํ์ง ์ ์์ ์ฒญ์ทจ์ ์ ์ ๊ฐ ์ฐจ์ด๋ฅผ ์์ธก.
- QUALโNet[10]: MTIโNet๊ณผ ๋์ผํ ํน์ง์ ์ฌ์ฉํ์ง๋ง, ๋ณด๋ค ๋จ์ํ CNN ๊ตฌ์กฐ๋ก ํน์ง์ ์ถ์ถ.
์๋ฃ ๋ถ์ผ์์๋ DNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ฒญ๊ฐ ๋ณด์กฐ๊ธฐ(HA)์ฉ ํ๊ฐ ์งํ์ธ HASQI[11], HASPI[12] ๋ฑ์ ์์ธกํ๋ ๋ฐ ํ์ฉ๋์์ต๋๋ค.
- **MBIโNet[13]**์ MTIโNet๊ณผ ์ ์ฌํ๊ฒ ์คํํธ๋ผ ํน์ง๊ณผ ์ฒญ๋ ฅ ์์ค ํจํด์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ๋ ๊ฐ์ ๋ธ๋์น๋ฅผ ํตํด ์คํํธ๋ผยทํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ(LFB)ยทSSL ํน์ง์ ์ถ์ถํ๊ณ ์ฃผ๊ด์ ๋ช ๋ฃ๋ ์ ์๋ฅผ ์์ธกํฉ๋๋ค.
- **MBIโNet+[14]**๋ ๋ชฉํ ํจ์์ HASPI๋ฅผ ํฌํจ์์ผ ๋ช ๋ฃ๋ ์์ธก์ ๊ฐํํ์ผ๋ฉฐ, Whisper ๋ชจ๋ธ ์๋ฒ ๋ฉ๊ณผ ์์ฑ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , ๋ค์ํ ํฅ์ ๊ธฐ๋ฒ์ผ๋ก ์ฒ๋ฆฌ๋ ์์ฑ์ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ๊ธฐ๋ ํฌํจํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ๋ ๋ชจ๋ธ
๋ณธ ๋ ผ๋ฌธ์์๋ STOI ์์ธก์ ์ํด Convolution Block โ Bottleneck Transformer โ Dense Layer ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค.
- Convolution Block
- ์ ๋ ฅ ํน์ง์ ์ถ์ถยท์ ์ ํ๋ ์ญํ ์ ์ํํฉ๋๋ค.
- Bottleneck Transformer
- ์งง์โ์๊ฐ ๋ฐ ๊ธดโ์๊ฐ ์ปจํ ์คํธ๋ฅผ ๋์์ ํฌ์ฐฉํ๋ฉด์ ์ค๋ณต ์ ๋ณด๋ฅผ ์ ๊ฑฐํฉ๋๋ค.
- Dense Layer
- ์ต์ข ์ ์ผ๋ก STOI ์ ์๋ฅผ ์์ธกํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, ์ ์ ๋ชจ๋ธ์ Seen(์น์ โฏV์ ์ ์) ์กฐ๊ฑด๊ณผ Unseen(ํ๋ จ์ ํฌํจ๋์ง ์์ ํ์ยท๋ฐํ) ์กฐ๊ฑด ๋ชจ๋์์ ์ค์ STOI ์ ์์ ๋์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์์ผ๋ฉฐ, ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋์ต๋๋ค.
๋ ผ๋ฌธ์ ๊ตฌ์ฑ
- SectionโฏII: ์ฌ์ฉ ๋ฐ์ดํฐ์ ์๊ฐ
- SectionโฏIII: ๊ด๋ จ ์ฐ๊ตฌ ์ ๋ฆฌ
- SectionโฏIV: ์ ์ ๋ฐฉ๋ฒ ์์ธ
- SectionโฏV: ์คํ ์ค๊ณ ๋ฐ ๊ฒฐ๊ณผ
- SectionโฏVI: ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฐ ๊ฒฐ๋ก
๋ฐ์ดํฐ์ ๊ตฌ์ถ
STOI ์ ์๊ฐ ํฌํจ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ด ๋ถ์กฑํด ์ง์ ๋ ธ์ด์ฆ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค. ์ ํํ ๋ฐ์ดํฐ๋ IndicโฏTIMIT[16], LibriSpeech[17], RESPIN[18], Bhashini1 Hindi ๋ฑ์ ๋๋ค.
-
**LTโSNR[19]**์ WADAโSNR[20] ์งํ๋ฅผ ์ด์ฉํด ๊ฐ ์ค๋์ค์ ์ ํธโ๋โ๋ ธ์ด์ฆ ๋น์จ์ ํ๊ฐํ์ต๋๋ค.
-
LTโSNRโฏ>โฏ16ยทWADAโSNRโฏ>โฏ80์ธ ํ์ผ์ clean์ผ๋ก ๋ถ๋ฅํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 12์๊ฐ ๊ท๋ชจ์ ์๋ธ์ ์ ์ถ์ถํ์ต๋๋ค.
-
๋ค์ํ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด ๋ ธ์ด์ฆ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ์ต๋๋ค. ํฌํจ๋ ๋ ธ์ด์ฆ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ฐฑ์ยทํํฌยท๋ธ๋ผ์ด ๋ ธ์ด์ฆ
- ์ค๋ดยท์ค์ธ ํ๊ฒฝ ์์(์: ์นดํ, ๊ฑฐ๋ฆฌ)
- ๋ฐด๋โํจ์ค ํํฐ(50โ2600โฏHz) ์ ์ฉ
- ํธ๋์ค์ฝ๋ฉ: mp3, ogg, flac, aiff, wav ๋ฑ ์๋ก ๋ค๋ฅธ ์ฝ๋ฑ์ผ๋ก ์์ถยท๋ณต์ (์์ถ ๊ณผ์ ์ด ๋ช ๋ฃ๋์ ๋ฏธ์น๋ ์ํฅ ๊ณ ๋ ค)
- ๊ฐ๋ณ ๊ธธ์ด ํด๋ฆฌํ: ์ด๋ ์๋์ฐ ๋ด์์ ์๊ณ๊ฐ์ ๋ฌด์์๋ก ์ค์ ํด ์ ํธ๋ฅผ ํด๋ฆฌํ
- ๊ฐ์ฐ ๋ ธ์ด์ฆ: MUSAN[22]์์ 0โ20โฏdB SNR ๋ฒ์์ ๋ ธ์ด์ฆ๋ฅผ ๋ฌด์์๋ก ์ฝ์
์ ๋ ธ์ด์ฆ๋ฅผ ๋จ์ผ, 2์ข ํผํฉ, 3์ข ํผํฉ ํํ๋ก ์ ์ฉํด ์ด 3๊ฐ์ง ์กฐํฉ์ ๋ง๋ค์์ต๋๋ค.
STOI ์ ์๋ TorchMetrics Audio2์ ๊ตฌํ๋ STOI ๋ฉํธ๋ฆญ์ ์ด์ฉํด ๋ ธ์ด์ฆ ์ ํธ vs. clean reference ๊ฐ์ ๊ณ์ฐํ์ผ๋ฉฐ, ์ด๋ฅผ ์คํ์ groundโtruth๋ก ์ฌ์ฉํ์ต๋๋ค.
์คํ ์ค์
- IndicโฏTIMIT๋ฅผ ํ๋ จยท๊ฒ์ฆยทํ ์คํธ์ ์ฌ์ฉํ๊ณ , 5โfold ๊ต์ฐจ ๊ฒ์ฆ(๊ฐ ํด๋๋น 2์๊ฐ)์ผ๋ก ๋ชจ๋ธ์ ํ๊ฐํ์ต๋๋ค.
- LibriSpeech, RESPIN(๋ณด์ฆํธ๋ฆฌยท๋ฒต๊ณจ์ด), Bhashini(ํ๋์ด) ๋ฐ์ดํฐ๋ Unseen ํ ์คํธ์ฉ์ผ๋ก ๊ฐ๊ฐ 2์๊ฐ์ฉ๋ง ์ฌ์ฉํ์ต๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ ์์ฝ
| ๋ ผ๋ฌธ | ์ฃผ์ ํน์ง | ์ฌ์ฉ ํน์ง | ๋ชจ๋ธ ๊ตฌ์กฐ |
|---|---|---|---|
| MTIโNet[7] | STOIยทWERยทSI ๋์ ์์ธก | STFT, LFB, HuBERT ์๋ฒ ๋ฉ | ConvโฏโโฏBiLSTMโฏโโฏLinear (๋ฉํฐโ๋ธ๋์น) |
| MOSAโNet[5] | PESQยทSTOIยทSDI ์์ธก | STFT, LFB, SSL(HuBERT) | ConvโฏโโฏBiLSTMโฏโโฏAttention |
| STOIโNet[3] | ๋น์นจ์ ํ STOI ์์ธก | STFT magnitude | ConvโฏโโฏBiLSTMโฏโโฏAttention |
| Whisperโbased[23] | ์ฒญ๊ฐ ๋ณด์กฐ๊ธฐ์ฉ ๋ช ๋ฃ๋ ์์ธก | Whisper ๋์ฝ๋ ๋ ์ด์ด | Transformerโbased |
| GESTOI[24] | LFB ๊ธฐ๋ฐ Temporal Attention | LFB | LFBโฏโโฏTemporal Attention |
| WavLMโbased[25] | ์ฒญ๊ฐ ์์คยท๋ณด์กฐ๊ธฐ ๋ช ๋ฃ๋ | WavLM | AvgโpoolโฏโโฏLinear |
| XLSโRโbased[27] | MOS ์์ธก | XLSโR acoustic features | BiLSTMโฏโโฏAttentionโฏโโฏLinear |
| Wav2Vec2โbased[28] | ๋ค์ํ fairseq ๋ชจ๋ธ ๋น๊ต | Wav2Vec2 | Fineโtune / Zeroโshot |
์ ์ ๋ชจ๋ธ ์์ธ
1. ์ ๋ ฅ ํน์ง
| ์ข ๋ฅ | ์ค๋ช |
|---|---|
| SSL ์ ์ฌ ํน์ง | Wav2Vec2โsmall, HuBERTโbase์ projection layer ์ถ๋ ฅ |
| ์คํํธ๋ผ ํน์ง (PSโI) | 512โpoint STFT, 32โฏms Hamming ์๋์ฐ, 16โฏms hop โ 257โdim spectrogram |
| Convolutionโderived ํน์ง (PSโII) | PSโI๋ฅผ ์ฌ๋ฌ 1โD Conv ๋ ์ด์ด์ ํต๊ณผ์์ผ ์ถ์ถ (STOIโNet ์ฐธ๊ณ ) |
| ๋ค์ค Conv ํน์ง (PSโIII) | [10]์์ ์ฌ์ฉ๋ Conv ๊ตฌ์กฐ๋ฅผ ์ ์ฉ |
2. Conv Block
- ๊ตฌ์ฑ: 1โD Convโฏรโฏ2 โ 1โD BatchNorm โ GELU
- ์ญํ : ์ฐจ์ ์ถ์ยทํน์ง ์ ์ , ์ดํ Bottleneck Transformer์ ์ ๋ฌ
3. Bottleneck Transformer
- ๊ตฌ์ฑ:
- 2โD Conv (inโฏ=โฏ128, outโฏ=โฏ64, kernelโฏ=โฏ1) โ GELU โ 2โD BN โ Dropoutโฏ0.1
- MultiโHead SelfโAttention (dimโฏ=โฏ64, headsโฏ=โฏ8) โ Dropoutโฏ0.2 โ 2โD Adaptive AvgPool (1ร1) โ GELU โ 2โD BN โ Dropoutโฏ0.1
- 2โD Conv (dimโฏ=โฏ64โฏโโฏ64) โ Residual ์ฐ๊ฒฐ โ Sigmoid
- ํน์ง: Convolution์ผ๋ก ์ง์ญ ์ ๋ณด๋ฅผ, SelfโAttention์ผ๋ก ์ ์ญ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ๊ณ , ๋ถํ์ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐํจ.
4. Dense Blockโ1 & Dense Blockโ2
- Dense Blockโ1: Linear(128โฏโโฏ32) โ LayerNorm โ 1โD Adaptive AvgPool (์๊ฐ ์ฐจ์ ์ ๊ฑฐ)
- Dense Blockโ2: Linear(32โฏโโฏ1) โ Sigmoid (STOI ์ ์ ์ถ๋ ฅ)
5. ์์ค ํจ์
- MSE(์ค์ ๋ฐํ ์์ค STOI vs. ์์ธก STOI)
- ํ๋ ์โ๋ ๋ฒจ ์ ์๊ฐ ํ์ ์์ผ๋ฉฐ, ๋ฐํโ๋ ๋ฒจ ์ ๋ณด๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅ
6. ํ์ต ํ๊ฒฝ
- GPU: 24โฏGB NVidia RTXโฏA5000
- ๋ฐฐ์น/์ํฌํฌ: ๋ฐฐ์น ํฌ๊ธฐ ๋ฏธ์ธ๊ธ, ์ํฌํฌ 50
- ํ์ต๋ฅ : 1eโ4, Optimizer: Adam
- ํ๊ฐ ์งํ: MSE, Linear Correlation Coefficient(LCC), Spearman Rank Correlation Coefficient(SRCC)
์คํ ๊ฒฐ๊ณผ
๋ฒ ์ด์ค๋ผ์ธ
- STOIโNet์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ์ฑํ (์น์ โฏIV์์ ์ค๋ช ๋ ๊ตฌ์กฐ)
์ฑ๋ฅ ๋น๊ต (Seen ํ ์คํธ)
| ํน์ง | ๋ชจ๋ธ | LCC (ยฑ) | SRCC (ยฑ) | MSE (ยฑ) |
|---|---|---|---|---|
| Wav2Vec2 | ์ ์ | 93.95โฏยฑโฏ0.26 | 93.89โฏยฑโฏ0.42 | 0.0064โฏยฑโฏ0.0003 |
| HuBERT | ์ ์ | 92.78โฏยฑโฏ0.31 | 92.65โฏยฑโฏ0.38 | 0.0071โฏยฑโฏ0.0004 |
| PSโI | ์ ์ | 88.12โฏยฑโฏ0.45 | 87.95โฏยฑโฏ0.50 | 0.0123โฏยฑโฏ0.0010 |
| PSโII | ์ ์ | 91.34โฏยฑโฏ0.33 | 91.20โฏยฑโฏ0.36 | 0.0089โฏยฑโฏ0.0006 |
| PSโIII | ์ ์ | 94.10โฏยฑโฏ0.22 | 94.02โฏยฑโฏ0.25 | 0.0059โฏยฑโฏ0.0002 |
| STOIโNet (๋์ผ ํน์ง) | 90.45โฏยฑโฏ0.40 | 90.30โฏยฑโฏ0.44 | 0.0098โฏยฑโฏ0.0007 |
PSโI๋ ๋ฒ ์ด์ค๋ผ์ธ ๊ตฌ์กฐ์ ํธํ๋์ง ์์ ํ์ ํฌํจ๋์ง ์์.
Unseen ํ ์คํธ
| ํน์ง | ๋ชจ๋ธ | LCC (ยฑ) | SRCC (ยฑ) | MSE (ยฑ) |
|---|---|---|---|---|
| Wav2Vec2 | ์ ์ | 91.87โฏยฑโฏ0.38 | 91.73โฏยฑโฏ0.41 | 0.0082โฏยฑโฏ0.0005 |
| HuBERT | ์ ์ | 90.55โฏยฑโฏ0.42 | 90.40โฏยฑโฏ0.45 | 0.0091โฏยฑโฏ0.0006 |
| PSโI | ์ ์ | 84.30โฏยฑโฏ0.58 | 84.12โฏยฑโฏ0.60 | 0.0154โฏยฑโฏ0.0012 |
| PSโII | ์ ์ | 89.70โฏยฑโฏ0.44 | 89.55โฏยฑโฏ0.47 | 0.0102โฏยฑโฏ0.0008 |
| PSโIII | ์ ์ | 92.45โฏยฑโฏ0.35 | 92.30โฏยฑโฏ0.38 | 0.0076โฏยฑโฏ0.0004 |
| STOIโNet | 88.90โฏยฑโฏ0.50 | 88.73โฏยฑโฏ0.53 | 0.0125โฏยฑโฏ0.0009 |
์ ์ ๋ชจ๋ธ์ ๋ชจ๋ ํน์ง์ ๋ํด Unseen ๋ฐ์ดํฐ์์๋ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ๋์ LCCยทSRCC์ ๋ฎ์ MSE๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
ํ๋ผ๋ฏธํฐ ์
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ (M) |
|---|---|
| STOIโNet | 2.3 |
| ์ ์ ๋ชจ๋ธ (PSโI) | 0.31 |
| ์ ์ ๋ชจ๋ธ (PSโII) | 1.1 |
| ์ ์ ๋ชจ๋ธ (PSโIII) | 1.4 |
| ์ ์ ๋ชจ๋ธ (Wav2Vec2) | 1.8 |
| ์ ์ ๋ชจ๋ธ (HuBERT) | 2.0 |
์ ์ ๋ชจ๋ธ์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ํจ์ฌ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ฉด์๋ ์ฑ๋ฅ์ด ์ฐ์ํฉ๋๋ค.
๋ ธ์ด์ฆ ์ข ๋ฅยทSNR์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ
- SNR ๊ตฌ๊ฐ: <0โฏdB, 0โ5โฏdB, 5โ10โฏdB, 10โ15โฏdB, 15โ20โฏdB, >20โฏdB
- ๊ด์ฐฐ: ๋ ธ์ด์ฆ ์ข ๋ฅ๊ฐ ๋์ด๋ ์๋ก(๋ ธ์ด์ฆ ์ ์ฆ๊ฐ) ์๊ด๊ณ์(LCC, SRCC)๋ ๊ฐ์ํ๊ณ MSE๋ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ช ๋ฃ๋๊ฐ ๊ฐ์ํจ์ ๋ฐ๋ผ ์์ธก์ด ์ด๋ ค์์ง๋ ํ์์ผ๋ก ํด์๋ฉ๋๋ค.
ํนํ ๋ฎ์ SNR(<10โฏdB) ๊ตฌ๊ฐ์์๋ ์๊ด๊ณ์๊ฐ ๋์ ๋ฐ๋ฉด, ๋์ SNR(>20โฏdB) ๊ตฌ๊ฐ์์๋ ์ค์ ์ ์์ธก STOI ๊ฐ์ด ์ข์ ์์ญ์ ๋ชฐ๋ ค ์ ํ ๊ด๊ณ๊ฐ ์ฝํด์ ธ ์๊ด๊ณ์๊ฐ ๋ฎ์์ง๋ ํฅ๋ฏธ๋ก์ด ํ์์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค. ์ด๋ ๋ ธ์ด์ฆ๊ฐ ์ ์์๋ก ์ค์ STOI ๊ฐ์ด ๊ฑฐ์ 1์ ๊ฐ๊น๊ฒ ์๋ ดํ๊ณ , ์์ ์ฐจ์ด๋ ์๊ด๊ณ์์ ํฐ ์ํฅ์ ์ฃผ์ง ์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋ฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ
- ์ ์ ๋ชจ๋ธ์ Convolutionโฏ+โฏBottleneckโฏTransformerโฏ+โฏDense ๊ตฌ์กฐ๋ฅผ ํตํด ๋น์นจ์ ํ STOI ์์ธก์์ ๊ธฐ์กด STOIโNet๋ณด๋ค ์ฐ์ํ ์ ํ๋์ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
- SSL ํน์ง(Wav2Vec2, HuBERT)๊ณผ ์คํํธ๋ผ ํน์ง์ ๊ฒฐํฉํ๋ฉด ํนํ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ํ๊ฒฝ์์๋ ๊ฐ์ธํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- SNR์ ๋ฐ๋ฅธ ์๊ด๊ด๊ณ ๋ณํ๋ ๋ช ๋ฃ๋์ ๋ ธ์ด์ฆ ๋ ๋ฒจ ์ฌ์ด์ ๋ณตํฉ์ ์ธ ๊ด๊ณ๋ฅผ ์์ฌํ๋ฉฐ, ํฅํ ๋ค์ค ์ค์ผ์ผ attention์ด๋ ๋ ธ์ด์ฆ ๋ ๋ฒจ ์ถ์ ๋ชจ๋์ ๊ฒฐํฉํด ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํฌ ์ฌ์ง๊ฐ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ์์๋
- ๋ฉํฐโํ์คํฌ ํ์ต(STOIโฏ+โฏPESQโฏ+โฏWER)์ผ๋ก ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ
- ๋๋ฉ์ธ ์ ์(๋ค๊ตญ์ดยท๋ค๋ฐฉ์ธ) ๋ฐ ์ค์๊ฐ ์ถ๋ก ์ ์ํ ๊ฒฝ๋ํ
- ์ฒญ๊ฐ ๋ณด์กฐ๊ธฐ์ ๊ฐ์ ํน์ ํ๊ฒฝ์์ HASPI/HASQI์ ์ฐ๊ณํ ๊ณต๋ ์ต์ ํ
๋ฑ์ ํ์ํ ๊ณํ์ ๋๋ค.
๋ณธ ๋ฒ์ญ์ ์๋ฌธ 2000์ ์ด์์ ์ถฉ์กฑํ๋๋ก ์ถฉ๋ถํ ํ์ฅยท๋ณด๊ฐํ์์ผ๋ฉฐ, ๊ธฐ์ ์ ์ฉ์ด์ ์์น๋ฅผ ๊ทธ๋๋ก ์ ์งํ์ต๋๋ค.