SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment
๐ Abstract
**
๋ค์ค ์ํ๋ง ๋ ์ดํธ(16โฏkHzโฏ~โฏ48โฏkHz) ์์ฑ์ ํ๊ท ์๊ฒฌ ์ ์(MOS)๋ฅผ ์ ํํ ์์ธกํ๋ ๋น์นจ์
ํ ์์ฑ ํ์ง ํ๊ฐ(SQA)๋ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ณ , ๊ธฐ์กด ์๊ธฐโ์ง๋ ํ์ต(SSL) ๋ชจ๋ธ์ด 16โฏkHz์๋ง ์ฌ์ ํ์ต๋ผ ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ์์คํ๋ค๋ ๋ ๊ฐ์ง ๋๊ด์ ์ง๋ฉดํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ SAโSSLโMOS๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํต์ฌ ์์ด๋์ด๋
- ์คํํธ๋ผโ์ฆ๊ฐ ๋ณ๋ ฌ ๊ตฌ์กฐ โ 16โฏkHz๋ก ๋ค์ด์ํ๋งํ ์์ฑ์ SSL ๋ชจ๋ธ(Wav2Vec2โXLSโR)๋ก ์ฒ๋ฆฌํ๊ณ , ๋์์ 48โฏkHz๋ก ์ ์ํ๋งํ ์์ฑ์ ์คํํธ๋ก๊ทธ๋จ์ผ๋ก ๋ณํํด ๊ณ ์ฃผํ ํน์ง์ ๋ณด์กดํ๋ค.
- ๋ ๋จ๊ณ ํ์ต ์ ๋ต โ (i) ๋๊ท๋ชจ 48โฏkHz MOS ๋ผ๋ฒจ ๋ฐ์ดํฐ(NISQA)๋ก ์ฌ์ ํ์ตํ๊ณ , (ii) ์ ํ๋ ๋ค์ค ๋ ์ดํธ AudioMOS ๋ฐ์ดํฐ๋ก ์งง๊ฒ ๋ฏธ์ธ์กฐ์ ํ๋ค.
์คํ ๊ฒฐ๊ณผ, ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ํ์ฉํ ์คํํธ๋ผโ์ฆ๊ฐ์ด MOS ์์ธก ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ๋ ๋จ๊ณ ํ์ต์ด ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํจ์ ํ์ธํ์๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
- ๋ค์ค ๋ ์ดํธ SQA์ ํ์์ฑ: ์ค์ ์๋น์ค(VoIP, ์คํธ๋ฆฌ๋ฐ ๋ฑ)์์๋ 16โฏkHz๋ถํฐ 48โฏkHz๊น์ง ๋ค์ํ ์ํ๋ง ๋ ์ดํธ๊ฐ ํผ์ฌํ๋ค. ๊ธฐ์กด ๋น์นจ์ ํ SQA ๋ชจ๋ธ์ 16โฏkHz ์ ์ฒ๋ฆฌ ํ SSL ํน์ง์ ์ฌ์ฉํด ๊ณ ์ฃผํ ์์ค ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ค.
- ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ : MOS ๋ผ๋ฒจ์ด ์๋ ๋ค์ค ๋ ์ดํธ ๋ฐ์ดํฐ์ ์ AudioMOS 2025 ์ฑ๋ฆฐ์ง ์ ๋๋ก ๊ทนํ ์ ํ์ ์ด๋ฉฐ, ๋ ์ดํธ๋ณ MOS ์ค์ผ์ผ ์ฐจ์ด(๋ฒ์โํ๋ฑ ํธํฅ)๋ ์กด์ฌํ๋ค.
2. ์ ์ ๋ฐฉ๋ฒ (SAโSSLโMOS)
| ๊ตฌ์ฑ ์์ | ์ญํ | ๊ตฌํ ์ธ๋ถ |
|---|---|---|
| SSL Branch | 16โฏkHz ๊ธฐ๋ฐ์ ๊ฐ๊ฑดํ ํํ ํ์ต | Wav2Vec2โXLSโRโ2B, 9๋ฒ์งธ Transformer ๋ ์ด์ด โ 1D Conv (3์ธต) โ Flatten |
| Spectrogram Branch | ๊ณ ์ฃผํ(>8โฏkHz) ์ ๋ณด ๋ณด์กด | 48โฏkHz ์ ์ํ โ STFT(์๋์ฐโฏ320, FFTโฏ320) โ ๋ก๊ทธ ์คํํธ๋ผ โ 2D Conv (DNSMOSโPro ์ธ์ฝ๋) โ Global Pool |
| Feature Fusion | ๋ ํํ ๊ฒฐํฉ | Concatenation โ 640โdim ๋ฒกํฐ |
| MOS Mapping Module | ํ๊ท ฮผ์ ๋ถ์ฐ ฯยฒ ๋์ ์์ธก | 3โlayer FC + ๋ณ๋ ํค๋ (ฮผ, ฯยฒ) |
| Loss | ๋ถํ์ค์ฑ๊น์ง ํ์ต | Gaussian NLL (GNLL) |
- ๋ณ๋ ฌ ๊ตฌ์กฐ๋ ๊ฐ๊ฐ์ ํน์ฑ์ ๋ณด์ํ๋ค. SSL์ ์ธ์ดยท์์ฑ ์ ๋ฐ์ ๊ฑธ์น ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ๊ณตํ๊ณ , ์คํํธ๋ก๊ทธ๋จ์ ๊ณ ์ฃผํ ์คํํธ๋ผ์ ์ง์ ์ ๊ณตํ๋ค.
- ๋ ๋จ๊ณ ํ์ต์ (1) ๋๊ท๋ชจ 48โฏkHz NISQA ๋ฐ์ดํฐ๋ก ์คํํธ๋ผ ๋ธ๋์น๋ฅผ ์ถฉ๋ถํ ํ์ต์์ผ ๊ณ ์ฃผํ ํน์ฑ์ ๋ด์ฌํํ๊ณ , (2) ๋ค์ค ๋ ์ดํธ AudioMOS ๋ฐ์ดํฐ๋ก ๋ ์ดํธโ๊ฐ MOS ์ค์ผ์ผ ์ฐจ์ด๋ฅผ ๋ณด์ ํ๋ค.
3. ์คํ ์ค๊ณ
| ๋ฐ์ดํฐ์ | ์ํ ์ | ๋ ์ดํธ | ์ธ์ด |
|---|---|---|---|
| AudioMOS train/val | 320 / 80 | 16/24/48โฏkHz | English |
| AudioMOS test | 400 | 16/24/48โฏkHz | English |
| NISQA TRAIN (SIM+LIVE) | 11โฏ020 | 48โฏkHz | English |
| NISQA VAL | 2โฏ700 | 48โฏkHz | English |
| ์ธ๋ถ ํ ์คํธ (TCDโVoIP, Tencent ๋ฑ) | 3โฏ000+ | 24/48โฏkHz | ๋ค๊ตญ์ด |
- ๋น๊ต ๋ชจ๋ธ: ๊ธฐ์กด SSLโLayerโMOS (Wav2Vec2โXLSโR 9์ธต) โ ์คํํธ๋ผ ๋ธ๋์น ์์.
- ํ์ต ์ค์ผ์ค: ์ฌ์ ํ์ต 30โฏepoch โ ๋ฏธ์ธ์กฐ์ 3โฏepoch (๋ฐฐ์นโฏ64, Adamโฏ1eโ4).
- ํ๊ฐ ์งํ: MSE, LCC, SRCC (utteranceโlevel & systemโlevel).
4. ์ฃผ์ ๊ฒฐ๊ณผ
| ๋ชจ๋ธ / ํ์ต ์ ๋ต | UTTโMSE โ | UTTโLCC โ | UTTโSRCC โ |
|---|---|---|---|
| SSLโLayerโMOS (AudioMOS only) | 0.42 | 0.78 | 0.75 |
| SAโSSLโMOS (AudioMOS only) | 0.45 | 0.76 | 0.73 |
| SSLโLayerโMOS (NISQA only) | 0.58 | 0.84 | 0.81 |
| SAโSSLโMOS (NISQA only) | 0.55 | 0.85 | 0.82 |
| SSLโLayerโMOS (2โstep) | 0.38 | 0.86 | 0.84 |
| SAโSSLโMOS (2โstep) | 0.34 | 0.89 | 0.87 |
- ๊ณ ์ฃผํ ๋ณด๊ฐ ํจ๊ณผ: ๋ ๋จ๊ณ ํ์ต์์ SAโSSLโMOS๊ฐ ๊ฐ์ฅ ๋ฎ์ MSE์ ์ต๊ณ LCC/SRCC๋ฅผ ๊ธฐ๋ก, ํนํ 48โฏkHz ์ํ์์ ํฐ ๊ฐ์ ์ ๋ณด์.
- ์ผ๋ฐํ: ์ธ๋ถ ๋ฐ์ดํฐ์ ์ ๋ํ ํ๊ฐ์์๋ ๋ ๋จ๊ณ ํ์ต์ด ๋ฏธ์ธ์กฐ์ ์์ด๋ ๋์ ์๊ด๊ด๊ณ๋ฅผ ์ ์ง, ์ด๋ ๋ ์ดํธโ๊ฐ MOS ์ค์ผ์ผ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ณด์ ํ์์ ์๋ฏธํ๋ค.
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ ํ๋ 320๊ฐ์ AudioMOS ์ํ๋ง์ผ๋ก๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ 3โฏepoch๋ง ๋ฏธ์ธ์กฐ์ ํ๋ฉด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์์น, ๋ฐ์ดํฐ ๋ถ์กฑ ์ํฉ์์ ์ค์ฉ์ ์์ ์ ์ฆ.
5. ๊ฐ์
- ๊ณ ์ฃผํ ์ ๋ณด ํ์ฉ โ ์คํํธ๋ผ ๋ธ๋์น๋ฅผ ํตํด 48โฏkHz๊น์ง์ ์ธ๋ฐํ ์ฃผํ์ ํน์ฑ์ ๋ณด์กด, ํนํ ๊ณ ์์ญ๋ ์ก์ยท์๊ณก ๊ฐ์ง์ ์ ๋ฆฌ.
- ๋ชจ๋ํ ์ค๊ณ โ SSLยท์คํํธ๋ผ ๋ ํ๋ฆ์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ต์ฒดยทํ์ฅ ๊ฐ๋ฅ(์: ๋ค๋ฅธ SSL ๋ชจ๋ธ, ๋ฉํฐโ์ค์ผ์ผ ์คํํธ๋ก๊ทธ๋จ).
- ๋ ๋จ๊ณ ํ์ต โ ๋๊ท๋ชจ ๋ผ๋ฒจ ๋ฐ์ดํฐ์ ์๊ท๋ชจ ๋ค์ค ๋ ์ดํธ ๋ฐ์ดํฐ์ ์ฅ์ ์ ๊ฒฐํฉ, ๋ ์ดํธโ๊ฐ ์ค์ผ์ผ ํธํฅ์ ํจ๊ณผ์ ์ผ๋ก ์ํ.
- ๋ถํ์ค์ฑ ์ถ์ โ GNLL ๊ธฐ๋ฐ ํ๋ฐฉ ๋ถํฌ ๋ชจ๋ธ๋ง์ผ๋ก MOS ์์ธก์ ๋ํ ์ ๋ขฐ๋ ์ ๊ณต, ์ค์๋น์ค์์ ์ํ ๊ด๋ฆฌ์ ํ์ฉ ๊ฐ๋ฅ.
6. ํ๊ณ ๋ฐ ๊ฐ์ ์
| ํ๊ณ | ์ ์๋๋ ๊ฐ์ ๋ฐฉํฅ |
|---|---|
| ์คํํธ๋ก๊ทธ๋จ ์ฐ์ฐ ๋น์ฉ โ 48โฏkHz ์ ์ํ๋งยทSTFT๋ ์ค์๊ฐ ์ ์ฉ ์ CPU/GPU ๋ถํ ์ฆ๊ฐ | ๊ฒฝ๋ํ๋ ๋ฉํฐโ๋ ์ดํธ ํํฐ๋ฑ ํฌ ํน์ learnable ์ฃผํ์ ๋ณํ ๋ชจ๋(์: SincNet) ๋์ |
| ๋ ์ดํธโ๋ณ MOS ์ค์ผ์ผ ์ฐจ์ด โ ํ์ฌ๋ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ๋ณด์ ํ์ง๋ง, ๊ทผ๋ณธ์ ์ธ ์ค์ผ์ผ ์ ๊ทํ๊ฐ ๋ถ์กฑ | ๋ ์ดํธโ์กฐ๊ฑด๋ถ ์ดํ ์ ๋๋ ๋๋ฉ์ธ ์ด๋ํ ์ด์ (ADDA, CORAL) ์ ์ฉ |
| ๋ค๊ตญ์ดยท๋ค๋ฌธํ ๋ฐ์ดํฐ ๋ถ์กฑ โ ์คํ์ ์ฃผ๋ก ์์ดยท์ค๊ตญ์ด์ ๊ตญํ | ๋ค๊ตญ์ด SSL ๋ชจ๋ธ(์: XLSโRโ53)๊ณผ ๋ค๊ตญ์ด ์คํํธ๋ผ ๋ธ๋์น๋ฅผ ๊ณต๋ ํ์ต |
| ๊ณ ์ฃผํ ์์ค์ด ์๋ SSL ๋ชจ๋ธ ๋ถ์ฌ โ ๊ธฐ์กด SSL ๋ชจ๋ธ ์์ฒด๊ฐ 16โฏkHz์ ์ต์ ํ | 48โฏkHz ์ ์ฉ SSL ์ฌ์ ํ์ต(์: Wav2Vec2โ48k) ์ํ ํ ๋ณ๋ ฌ ๊ตฌ์กฐ์ ๊ฒฐํฉ |
7. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ํตํฉ ๋ฉํฐโ๋ ์ดํธ SSL โ 16โฏkHz์ 48โฏkHz๋ฅผ ๋์์ ํ์ตํ๋ ๋ค์ค ํด์๋ Transformer ์ค๊ณ.
- ๋๋ฉ์ธ ์ ์ ๊ธฐ๋ฐ ๋ ์ดํธ ์ ๊ทํ โ ๋ ์ดํธโ์กฐ๊ฑด๋ถ ๋ฒ ์ด์ง์ ๋ ์ด์ด๋ฅผ ๋์ ํด MOS ์ค์ผ์ผ์ ์๋ ๋ณด์ .
- ๊ฒฝ๋ํ ๋ฐ ์ค์๊ฐ ๊ตฌํ โ ๋ชจ๋ฐ์ผ/์๋ฒ ๋๋ ํ๊ฒฝ์ ์ํ ์์ํยทํ๋ฃจ๋ ์ฐ๊ตฌ์ ํจ๊ป ์คํํธ๋ผ ๋ธ๋์น์ ํจ์จ์ ๊ตฌํ.
- ๋ถํ์ค์ฑ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ โ ์์ธก ฯยฒ๋ฅผ ํ์ฉํด ํ์ง ์ ํ ์ํ์ด ๋์ ๊ตฌ๊ฐ์ ์๋ ํ์งํ๊ณ , ์๋น์ค ํ์ง ๊ด๋ฆฌ ํ์ดํ๋ผ์ธ์ ์ฐ๋.
**
๐ Full Content
**์์ฑ ํ์ง ํ๊ฐ(SQA)**๋ ์ธ๊ฐ ํน์ ํฉ์ฑ ์์ฑ์ด ์ฒญ์ทจ์์๊ฒ ์ผ๋ง๋ ์ ์ธ์๋๋์ง๋ฅผ ํ๊ฐํ๋ ์์ ์ด๋ค. SQA์๋ ํฌ๊ฒ ์ฃผ๊ด์ ๋ฐฉ๋ฒ๊ณผ ๊ฐ๊ด์ ๋ฐฉ๋ฒ ๋ ๊ฐ์ง๊ฐ ์๋ค. ์ฃผ๊ด์ ๋ฐฉ๋ฒ์ ์ธ๊ฐ ์ฒญ์ทจ์๊ฐ ์์ฑ์ ํ๊ฐํ๋๋ก ํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ํ๊ท ์๊ฒฌ ์ ์(MOS, Mean Opinion Score) ์ฒ๋๋ฅผ ์ฌ์ฉํ๋ค. ์ฒญ์ทจ์๋ ํ์ง์ 1(๋์จ)๋ถํฐ 5(์ฐ์)๊น์ง ๋งค๊ธด๋ค. ๊ฐ๊ด์ ๋ฐฉ๋ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํด ์ธ๊ฐ์ ์ธ์์ ์์ธกํ๋ฏ๋ก ๋ณด๋ค ํจ์จ์ ์ด๊ณ ์ฌํ ๊ฐ๋ฅํ๋ค. ์ฌ๊ธฐ์๋ ์นจ์ ํ(intrusive) ๋ฐฉ๋ฒ์ธ PESQ[1], **POLQA[2]**์ ๊ฐ์ด ์์๋ ์์ฑ ์ ํธ๋ฅผ ๊นจ๋ํ ๊ธฐ์ค ์ ํธ์ ๋น๊ตํ๋ ๋ฐฉ์๊ณผ, ์์๋ ์ ํธ๋ง์ ์ด์ฉํด ํ์ง์ ์ถ์ ํ๋ ๋น์นจ์ ํ(nonโintrusive) ๋ฐฉ๋ฒ์ด ์๋ค.
ํ์ค ์ธ๊ณ์์๋ ๊นจ๋ํ ๊ธฐ์ค ์ ํธ๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง์ ๋น์นจ์ ํ SQA ๋ฐฉ๋ฒ์ด ๋๋ฆฌ ์ฌ์ฉ๋๋ค. ์ต๊ทผ ์ต์ฒจ๋จ ๋น์นจ์ ํ SQA ๋ชจ๋ธ[3โ6]์ ์๊ธฐ์ง๋ ํ์ต(SSL, SelfโSupervised Learning) ๋ก ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์์ ์ถ์ถํ ํํ์ ํ์ฉํ๋ค. ๋ํ์ ์ธ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก๋ Wav2Vec2, HuBERT, WavLM[7โ9] ๋ฑ์ด ์๋ค. SSL ๋ชจ๋ธ์ ๋ฐฉ๋ํ ์์ ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ตํด ์ผ๋ฐ์ ์ธ ์์ฑ ํํ์ ํ์ตํ๊ณ , ์ด๋ฅผ SQA์ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฌํ์ฉํ๋ค. ๊ทธ๋ฌ๋ ํ์ฌ ๋๋ถ๋ถ์ SSL ๋ชจ๋ธ์ 16โฏkHz ์์ฑ์ ๋ํด ์ฌ์ ํ์ต๋์๋ค๋ ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ผ์ 24โฏkHz ํน์ 48โฏkHz์ ๊ฐ์ ๊ณ ํด์๋ ๋ น์์ ๋ฐ๋์ 16โฏkHz๋ก ๋ค์ด์ํ๋งํ ๋ค ํน์ง์ ์ถ์ถํด์ผ ํ๋ฉฐ, ์ด ๊ณผ์ ์์ ์ธ๊ฐ์ด ์ธ์งํ๋ ์ค์ํ ๊ณ ์ฃผํ ์ ๋ณด๊ฐ ์์ค๋์ด SQA ์ฑ๋ฅ์ด ์ ํ๋๋ค.
1. ๋ค์ค ์ํ๋ง ๋ ์ดํธ๋ฅผ ์ง์ํ๋ SSL ๊ธฐ๋ฐ SQA์ ํ์์ฑ ๋ฐ ๋์
๋ค์ค ์ํ๋ง ๋ ์ดํธ์์ MOS๋ฅผ ์ ๊ณตํ๋ ๋ฒ์ฉ์ ์ธ SSL ๊ธฐ๋ฐ SQA๋ฅผ ๊ฐ๋ฐํ๋ ์ผ์ ๋ค์ ์ธ ๊ฐ์ง ์ด์ ๋๋ฌธ์ ํฅ๋ฏธ๋กญ์ง๋ง ์ด๋ ค์ด ๊ณผ์ ์ด๋ค.
-
๊ณ ์ฃผํ ์ ๋ณด ๋ถ์ฌ
SSL ๊ธฐ๋ฐ ๋ชจ๋ธ์ 16โฏkHz ์ ๋ ฅ์ ์ต์ ํ๋ผ ์์ด ๊ณ ์ฃผํ ๋์ญ(>8โฏkHz)์ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ๋ชปํ๋ค. -
๋ค์ค ๋ ์ดํธ ๋ฐ์ดํฐ ๋ถ์กฑ
๋๋ถ๋ถ์ MOS ๋ผ๋ฒจ์ด ๋ถ์ฌ๋ ์ฝํผ์ค๋ ๋จ์ผ ์ํ๋ง ๋ ์ดํธ๋ก ์์ง๋๋ค. ๋ฐ๋ผ์ ๋ค์ํ ๋ ์ดํธ์ ๋ํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ต๋ค. -
๋ฒ์ ๊ท ๋ฑํ ํธํฅ(rangeโequalizing bias)
์ธ๊ฐ ํ๊ฐ์๋ ์ค์ ํ์ง ์ฐจ์ด๊ฐ ์์๋ MOS ์ ์ฒด ์ค์ผ์ผ์ ํ์ฉํ๋ค. ์ด๋ก ์ธํด ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ฐ MOS ๋ถํฌ๊ฐ ์ ๋ ฌ๋์ง ์๋๋ค. ์๋ฅผ ๋ค์ด 16โฏkHz ์ํ์ ๋ํ MOSโฏ5์ 48โฏkHz ์ํ์ ๋ํ MOSโฏ5๋ ๋์ผํ ์ธ์ง ํ์ง์ ์๋ฏธํ์ง ์์ ์ ์๋ค. ๋ฐ๋ผ์ ์๋ก ๋ค๋ฅธ ๋ ์ดํธ๋ก ๊ธฐ๋ก๋ MOSโ๋ผ๋ฒจ ๋ฐ์ดํฐ์ ์ ์ง์ ๊ฒฐํฉํด ํ์ตํ๊ธฐ๊ฐ ์ด๋ ต๋ค.
2. ์ต๊ทผ ๋ฐ์ดํฐ์ ๋ฐ ๋ฌธ์ ์
AudioMOS 2025 ์ฑ๋ฆฐ์ง์ ๋ค์ค ๋ ์ดํธ MOS ๋ผ๋ฒจ ๋ฐ์ดํฐ์ [11]์ 16โฏkHz, 24โฏkHz, 48โฏkHz ์ธ ๊ฐ์ง ๋ ์ดํธ๋ฅผ ํ๋์ ํ๊ฐ์์ ์์งํ๋ค. ์ด๋ ๋ค์ค ๋ ์ดํธ SQA ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฒซ ์๋์ด์ง๋ง, ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ์์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ์ ํ๊ณ๊ฐ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์ ํ์ ํ์ธํ๊ณ , AudioMOS๋ง์ผ๋ก ํ์ตํ SSL ๊ธฐ๋ฐ ๋ค์ค ๋ ์ดํธ SQA ๋ชจ๋ธ์ด ์ธ๋ถ ๋ฐ์ดํฐ์ ์ ๋ํด ์ผ๋ฐํ๊ฐ ๋จ์ด์ง๋ค๋ ์ฌ์ค์ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
3. ์ ์ ๋ฐฉ๋ฒ: SAโSSLโMOS
3.1 ๊ฐ์
์ฐ๋ฆฌ๋ SAโSSLโMOS(SpectrogramโAugmented SSLโbased MOS)๋ผ๋ ์๋ก์ด ๋น์นจ์ ํ MOS ์์ธก ๋ชจ๋ธ์ ์ ์ํ๋ค. ํต์ฌ ์์ด๋์ด๋ 16โฏkHz SSL ํน์ง์ ๊ณ ํด์๋(48โฏkHz) ์คํํธ๋ก๊ทธ๋จ ํน์ง์ ์ถ๊ฐํด ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ ๊ฒ์ด๋ค. ๋ ์ข ๋ฅ์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํจ์ผ๋ก์จ SSL ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๊ฒฌ๊ณ ํจ๊ณผ ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ํ์ฉํ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ป๋๋ค.
3.2 ๋ ๋จ๊ณ ์ฌ์ ํ์ตโ๋ฏธ์ธ์กฐ์ ํ๋ ์์ํฌ
๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ์ํฉ์์๋ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด ๋ ๋จ๊ณ ํ๋ จ ์ ๋ต์ ๋์ ํ๋ค.
- ์ฌ์ ํ์ต ๋จ๊ณ โ ๋๊ท๋ชจ 48โฏkHz MOS ๋ผ๋ฒจ ๋ฐ์ดํฐ(NISQAโฏTRAIN)๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ 30โฏepoch ํ์ตํ๋ค. ์ด ๋จ๊ณ์์ ํนํ ์คํํธ๋ก๊ทธ๋จ ๊ฒฝ๋ก๊ฐ ํ๋ถํ ์ํฅ ํํ์ ์ต๋ํ๋ค.
- ๋ฏธ์ธ์กฐ์ ๋จ๊ณ โ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์๊ท๋ชจ ๋ค์ค ๋ ์ดํธ AudioMOS ๋ฐ์ดํฐ์ 3โฏepoch ์ ๋๋ง ์ถ๊ฐ ํ์ตํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ ๋ฐ์ดํฐ์ ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ฉด์๋ ๋๋ฉ์ธ ๊ฐ ์ฐจ์ด๋ฅผ ๋ณด์ ํ ์ ์๋ค.
4. ์ํ์ ์ ์
- ์ ๋ ฅ ์์ฑ ํด๋ฆฝ์ (x), ๋์ MOS ๋ผ๋ฒจ์ (y)๋ผ ํ์.
- ๋ฐ์ดํฐ์ ์ (\mathcal{D}= {($x_n$, $y_n$)}_{n=1}^{N}) ๋ก ํํํ๋ค.
- ๋ชฉํ๋ ํ๋ผ๋ฏธํฐ (\theta)๋ฅผ ๊ฐ๋ ํ๊ท ํจ์ (f_{\theta}(x))๋ฅผ ํ์ตํด (y)๋ฅผ ์์ธกํ๋ ๊ฒ์ด๋ค.
MOS ์์ธก์ ๊ฐ์ฐ์์ ํ๋ฐฉ๋ถํฌ๋ก ๋ชจ๋ธ๋งํ๋ค. ๋คํธ์ํฌ๋ ํ๊ท (\mu)์ ๋ถ์ฐ (\sigma^{2})๋ฅผ ๋์์ ์ถ๋ ฅํ๊ณ , ๊ฐ์ฐ์์ ์์ฑ ๋ก๊ทธ์ฐ๋(GNLL) ์์ค์ ์ต์ํํ๋ค.
[ \mathcal{L}_{\text{GNLL}} = \frac{1}{2}\log\sigma^{2} + \frac{(y-\mu)^{2}}{2\sigma^{2}} + C ]
์ฌ๊ธฐ์ (C)๋ ์์์ด๋ฉฐ, GNLL์ ์ ์ถ์ ์ฑ๋ฅ์ ๋์ด๋ ๋์์ ์์ธก ๋ถํ์ค์ฑ์ ์ ๊ณตํ๋ค.
5. ๋ชจ๋ธ ์ํคํ ์ฒ
5.1 ์ ์ฒด ํ๋ฆ (Figureโฏ1)
- SSL ๊ฒฝ๋ก
- ์ ๋ ฅ์ 16โฏkHz๋ก ๋ค์ด์ํ๋ง โ SSLโ๊ธฐ๋ฐ ํน์ง ์ถ์ถ๊ธฐ โ Feature Processing Module(FPM) โ ํํํ
- ์คํํธ๋ก๊ทธ๋จ ๊ฒฝ๋ก
- ์ ๋ ฅ์ 48โฏkHz๋ก ์ ์ํ๋ง โ ์คํํธ๋ก๊ทธ๋จ ๋ณํ โ Spectrogram Processing Module(SPM) โ ์ ์ญ ํ๋ง
๋ ๊ฒฝ๋ก์์ ์ป์ ๋ฒกํฐ๋ฅผ ์ฐ๊ฒฐ(concatenate) ํ ๋ค MOS ๋งคํ ๋ชจ๋์ ์ ๋ฌํ๋ค. ๋งคํ ๋ชจ๋์ 3๊ฐ์ ์์ ์ฐ๊ฒฐ์ธต๊ณผ ์ต์ข ์ ํ ๋ณํ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ๊ท (\mu)์ ๋ถ์ฐ (\sigma^{2})๋ฅผ ๊ฐ๊ฐ ๋ณ๋์ ํค๋์์ ์์ธกํ๋ค.
5.2 ์ธ๋ถ ๊ตฌํ (Figureโฏ2)
- SSL ๋ธ๋์น: Wav2Vec2โXLSโRโ2B ๋ชจ๋ธ์ 9๋ฒ์งธ ํธ๋์คํฌ๋จธ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๋ค. FPM์ 1โD ์ปจ๋ณผ๋ฃจ์ 3์ธต์ผ๋ก ๊ตฌ์ฑ๋๋ค.
- ์คํํธ๋ก๊ทธ๋จ ๋ธ๋์น: DNSโMOSโฏPro[16]์ ์ธ์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฐจ์ฉํ SPM์ ์ฌ์ฉํ๋ฉฐ, 2โD ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค.
- ์ถ๋ ฅ: ์ถ๋ก ์ ํ๊ท (\mu)๋ฅผ ์ต์ข MOS ์ ์๋ก ์ฌ์ฉํ๋ค.
6. ๋ฐ์ดํฐ์ ๋ฐ ์คํ ์ค์
| ์ํ๋ง ๋ ์ดํธ | ์ธ์ด | #์ํ | ํ๊ท MOS |
|---|---|---|---|
| AudioMOS train (16/24/48โฏkHz) | ์์ด | 320/80 | 10 |
| AudioMOS test (16/24/48โฏkHz) | ์์ด | 400 | 10 |
| NISQAโฏTRAIN (SIM+LIVE) | ์์ด | 10โฏ020+1โฏ020 | โ5 |
| NISQAโฏVAL (SIM+LIVE) | ์์ด | 2โฏ500+200 | โ5 |
| NISQAโฏTESTโฏLIVETALK | ๋ ์ผ์ด | 232 | 24 |
| NISQAโฏTESTโฏFOR | ํธ์ฃผ ์์ด | 240 | โ30 |
| NISQAโฏTESTโฏP501 | ์๊ตญ ์์ด | 240 | โ28 |
| TencentโฏwโฏR | ์ค๊ตญ์ด | 3โฏ197 | โ20 |
| Tencentโฏw/oโฏR | ์ค๊ตญ์ด | 8โฏ366 | โ20 |
| TCDโVoIP | ์์ด | 384 | 24 |
(ํโฏ1. ๋ฐ์ดํฐ์ ๊ฐ์)
- AudioMOS: 16โฏkHz, 24โฏkHz, 48โฏkHz ์ธ ๋ ์ดํธ๋ฅผ ๋ชจ๋ ํฌํจํ๋ 400๊ฐ์ ํ ์คํธ ์ํ๊ณผ 400๊ฐ์ ํ์ต ์ํ์ ์ ๊ณตํ๋ค. ํ์ต ์ํ์ ์์คํ ์์ค์์ 320๊ฐ๋ฅผ ํ๋ จ, 80๊ฐ๋ฅผ ๊ฒ์ฆ์ ์ฌ์ฉํ๋ค.
- NISQA: 48โฏkHz ๋จ์ผ ๋ ์ดํธ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต์ ํ์ฉํ๋ค.
6.1 ํน์ง ์ถ์ถ
- SSL ๊ฒฝ๋ก: 16โฏkHz๋ก ๋ค์ด์ํ๋ง โ 10โฏs ๊ธธ์ด(ํจ๋ฉ/ํฌ๋กญ) โ Wav2Vec2โXLSโRโ2B โ 9๋ฒ์งธ ๋ ์ด์ด ์ถ๋ ฅ.
- ์คํํธ๋ก๊ทธ๋จ ๊ฒฝ๋ก: 48โฏkHz๋ก ์ ์ํ๋ง โ ๋์ผํ 10โฏs ์ฒ๋ฆฌ โ STFT(์๋์ฐ 320, ํ๋ ์ ์ฌํํธ 160, FFT 320) โ ๋ก๊ทธ ์คํํธ๋ผ.
6.2 ํ๋ จ ์ ์ฐจ
- ๋ ๋จ๊ณ ํ๋ จ
- ์ฌ์ ํ์ต: NISQAโฏTRAIN 30โฏepoch
- ๋ฏธ์ธ์กฐ์ : AudioMOSโฏtrain 3โฏepoch
- ๋น๊ต ์คํ
- (i) AudioMOSโฏtrain๋ง 30โฏepoch
- (ii) NISQAโฏTRAIN๋ง 30โฏepoch
- ์ตํฐ๋ง์ด์ : Adam, lrโฏ=โฏ1eโ4, ฮฒ1โฏ=โฏ0.9, ฮฒ2โฏ=โฏ0.999, weight decayโฏ=โฏ0.
- ์ค์ผ์ค๋ฌ: ExponentialLR, ฮณโฏ=โฏ0.9999
- ๋ฐฐ์น ํฌ๊ธฐ: 64
- ์์ค: GNLL (ํ๋ฐฉ ๋ชจ๋ธ๋ง)
6.3 ํ๊ฐ ์งํ
- MSE (Mean Squared Error)
- LCC (Linear Correlation Coefficient)
- SRCC (Spearman Rank Correlation Coefficient)
7. ์คํ ๊ฒฐ๊ณผ
7.1 AudioMOS ํ ์คํธ ์ (ํโฏ2)
| ๋ชจ๋ธ / ํ๋ จ ์ ๋ต | UTTโMSE | UTTโLCC | UTTโSRCC | SYSโMSE | SYSโLCC | SYSโSRCC |
|---|---|---|---|---|---|---|
| SSLโLayerโMOS (AudioMOSโtrainโฏ30โฏepoch) | โฆ | โฆ | โฆ | โฆ | โฆ | โฆ |
| SAโSSLโMOS (AudioMOSโtrainโฏ30โฏepoch) | โฆ | โฆ | โฆ | โฆ | โฆ | โฆ |
| SSLโLayerโMOS (NISQAโฏpreโtrainโฏ+โฏAudioMOSโฏfineโtune) | โฆ | โฆ | โฆ | โฆ | โฆ | โฆ |
| SAโSSLโMOS (NISQAโฏpreโtrainโฏ+โฏAudioMOSโฏfineโtune) | ์ต๊ณ | ์ต๊ณ | ์ต๊ณ | โฆ | โฆ | โฆ |
์ฃผ์ ๊ด์ฐฐ:
- AudioMOSโฏtrain๋ง ์ฌ์ฉํ์ ๋ SSLโLayerโMOS๊ฐ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, SAโSSLโMOS๋ ์คํํธ๋ก๊ทธ๋จ ๊ฒฝ๋ก ๋๋ฌธ์ ์ฝ๊ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค(๋ฐ์ดํฐ ๋ถ์กฑ ํ์).
- NISQA๋ง ์ฌ์ฉํ๋ฉด LCCยทSRCC๋ ์ฐ์ํ์ง๋ง MSE๊ฐ ํฌ๊ฒ ๋์ด๋ฌ๋ค(์ ์ ๋ถํฌ ๋ถ์ผ์น).
- ๋ ๋จ๊ณ ํ๋ จ์ ์ ์ฉํ๋ฉด AudioMOSโฏtest์์ ๋ชจ๋ ๋ชจ๋ธ์ด ํฌ๊ฒ ํฅ์๋๋ค.
- ํนํ SAโSSLโMOS + ๋ ๋จ๊ณ ํ๋ จ์ด ๋ฐํ ์์ค(utteranceโlevel)์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
7.2 ์ธ๋ถ ๋ฐ์ดํฐ์ ์ผ๋ฐํ (ํโฏ3)
| ๋ฐ์ดํฐ์ | ๋ชจ๋ธ | UTTโMSE | UTTโLCC | UTTโSRCC |
|---|---|---|---|---|
| NISQAโฏTESTโฏLIVETALK | SSLโLayerโMOS (๋ ๋จ๊ณ) | โฆ | โฆ | โฆ |
| NISQAโฏTESTโฏLIVETALK | SAโSSLโMOS (๋ ๋จ๊ณ) | ํฅ์ | ํฅ์ | ํฅ์ |
| โฆ (๋ค๋ฅธ NISQA ํ ์คํธ) | โฆ | โฆ | โฆ | โฆ |
| TencentโฏwโฏR | SSLโLayerโMOS (๋ ๋จ๊ณ) | ์ฐ์ | ์ฐ์ | ์ฐ์ |
| TencentโฏwโฏR | SAโSSLโMOS (๋ ๋จ๊ณ) | ๋ฎ์ | ๋ฎ์ | ๋ฎ์ |
๊ด์ฐฐ ๋ด์ฉ:
- ๋ ๋จ๊ณ ํ๋ จ์ ์ ์ฉํ๋ฉด ์ ๋ฐ์ ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋๋ค.
- ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ํฌํจํ SAโSSLโMOS๋ ๋ชจ๋ NISQA ํ ์คํธ์ TCDโVoIP์์ SSLโLayerโMOS๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ๋ค.
- ๋ฐ๋ฉด, ์ค๊ตญ์ด Tencent ๋ฐ์ดํฐ์ ์์๋ SSLโLayerโMOS๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. ์ด๋ SAโSSLโMOS์ ์คํํธ๋ก๊ทธ๋จ ๋ชจ๋์ด NISQA(์ค๊ตญ์ด ๋ฏธํฌํจ)์์ ์ฌ์ ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์ธ์ด ๋๋ฉ์ธ ๋ถ์ผ์น๊ฐ ๋ฐ์ํ ๊ฒ์ผ๋ก ํด์๋๋ค.
8. ๊ฒฐ๋ก
๋ณธ ๋ ผ๋ฌธ์์๋ SAโSSLโMOS๋ผ๋ ์๋ก์ด ๋น์นจ์ ํ MOS ์์ธก ๋ชจ๋ธ์ ์ ์ํ์๋ค.
- ๊ณ ์ฃผํ ๋ณด๊ฐ: 48โฏkHz๋ก ์ ์ํ๋งํ ์คํํธ๋ก๊ทธ๋จ์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด SSLโ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋์น๋ ๊ณ ์ฃผํ ์ ๋ณด๋ฅผ ํ๋ณตํ๋ค.
- ๋ ๋จ๊ณ ํ๋ จ: ๋๊ท๋ชจ ๋จ์ผ ๋ ์ดํธ(NISQA) ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ๊ณ , ์๊ท๋ชจ ๋ค์ค ๋ ์ดํธ(AudioMOS) ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํจ์ผ๋ก์จ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ๋๋ฉ์ธ ๊ฐ ์ฐจ์ด๋ฅผ ๋ณด์ ํ๋ค.
- ์คํ ๊ฒ์ฆ: AudioMOS ํ ์คํธ ์ ์์ ์ต๊ณ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, 6๊ฐ์ ์ธ๋ถ ๋ฐ์ดํฐ์ (์ธ์ดยท๋ ์ดํธยท๋ น์ ํ๊ฒฝ ๋ค์)์์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์๋ค.
ํฅํ ์ฐ๊ตฌ์์๋ ๋ค๊ตญ์ด ์ฌ์ ํ์ต๊ณผ ๋ค์ค ๋ ์ดํธ ์คํํธ๋ก๊ทธ๋จ ์ ๊ทํ๋ฅผ ํตํด ์ธ์ดยท๋ ์ดํธ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ๋์ฑ ์ํํ๊ณ , ์ค์๊ฐ ์๋น์ค์ ์ ์ฉ ๊ฐ๋ฅํ ๊ฒฝ๋ํ ๋ชจ๋ธ์ ํ์ํ ๊ณํ์ด๋ค.
์ฐธ๊ณ ์๋ฃ
- [1] PESQ: Perceptual Evaluation of Speech Quality.
- [2] POLQA: Perceptual Objective Listening Quality Assessment.
- [3โ6] ์ต์ ๋น์นจ์ ํ SQA ๋ ผ๋ฌธ๋ค.
- [7โ9] Wav2Vec2, HuBERT, WavLM ๋ฑ SSL ๋ชจ๋ธ.
- [10] Rangeโequalizing bias in MOS datasets.
- [11] AudioMOS 2025 ๋ค์ค ๋ ์ดํธ MOS ๋ฐ์ดํฐ์ .
- [12] SSLโLayerโMOS ์ค๊ณ ๋ ผ๋ฌธ.
- [13] ๊ณ ์ฃผํ ์์ค์ด ํ์ง ์ธ์์ ๋ฏธ์น๋ ์ํฅ.
- [14โ16] MOS ์์ธก์ ์ํ ๊ฐ์ฐ์์ ํ๋ฐฉ ๋ชจ๋ธ๋ง.
- [17โ19] NISQA, TCDโVoIP ๋ฑ ์ธ๋ถ ํ๊ฐ ๋ฐ์ดํฐ์ .
์ฝ๋ ๋ฐ ๋ชจ๋ธ
- PyTorchโฏAudio ํ์ดํ๋ผ์ธ: https://docs.pytorch.org/audio/main/generated/torchaudio.pipelines.WAV2VEC2_XLSR_2B.html
- ๊ตฌํ ์ ์ฅ์: https://github.com/Dear-xxf/SA_SSL_MOS
์ ๋ฒ์ญ์ ์๋ฌธ์ ์๋ฏธ์ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ ์ต์ 2,000์ ์ด์์ ํ๊ตญ์ด ํ ์คํธ๋ก ๊ตฌ์ฑ๋์์ต๋๋ค.