SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment

SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment

๐Ÿ“ Abstract

**
๋‹ค์ค‘ ์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ(16โ€ฏkHzโ€ฏ~โ€ฏ48โ€ฏkHz) ์Œ์„ฑ์˜ ํ‰๊ท  ์˜๊ฒฌ ์ ์ˆ˜(MOS)๋ฅผ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•˜๋Š” ๋น„์นจ์ž…ํ˜• ์Œ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€(SQA)๋Š” ๋ผ๋ฒจ๋ง๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜๊ณ , ๊ธฐ์กด ์ž๊ธฐโ€‘์ง€๋„ ํ•™์Šต(SSL) ๋ชจ๋ธ์ด 16โ€ฏkHz์—๋งŒ ์‚ฌ์ „ํ•™์Šต๋ผ ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ์†์‹คํ•œ๋‹ค๋Š” ๋‘ ๊ฐ€์ง€ ๋‚œ๊ด€์— ์ง๋ฉดํ•œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ SAโ€‘SSLโ€‘MOS๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š”

  1. ์ŠคํŽ™ํŠธ๋Ÿผโ€‘์ฆ๊ฐ• ๋ณ‘๋ ฌ ๊ตฌ์กฐ โ€“ 16โ€ฏkHz๋กœ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•œ ์Œ์„ฑ์„ SSL ๋ชจ๋ธ(Wav2Vec2โ€‘XLSโ€‘R)๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ๋™์‹œ์— 48โ€ฏkHz๋กœ ์—…์ƒ˜ํ”Œ๋งํ•œ ์Œ์„ฑ์„ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์œผ๋กœ ๋ณ€ํ™˜ํ•ด ๊ณ ์ฃผํŒŒ ํŠน์ง•์„ ๋ณด์กดํ•œ๋‹ค.
  2. ๋‘ ๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต โ€“ (i) ๋Œ€๊ทœ๋ชจ 48โ€ฏkHz MOS ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ(NISQA)๋กœ ์‚ฌ์ „ํ•™์Šตํ•˜๊ณ , (ii) ์ œํ•œ๋œ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ AudioMOS ๋ฐ์ดํ„ฐ๋กœ ์งง๊ฒŒ ๋ฏธ์„ธ์กฐ์ •ํ•œ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ์ŠคํŽ™ํŠธ๋Ÿผโ€‘์ฆ๊ฐ•์ด MOS ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ๋„ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•จ์„ ํ™•์ธํ•˜์˜€๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

  • ๋‹ค์ค‘ ๋ ˆ์ดํŠธ SQA์˜ ํ•„์š”์„ฑ: ์‹ค์ œ ์„œ๋น„์Šค(VoIP, ์ŠคํŠธ๋ฆฌ๋ฐ ๋“ฑ)์—์„œ๋Š” 16โ€ฏkHz๋ถ€ํ„ฐ 48โ€ฏkHz๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ๊ฐ€ ํ˜ผ์žฌํ•œ๋‹ค. ๊ธฐ์กด ๋น„์นจ์ž…ํ˜• SQA ๋ชจ๋ธ์€ 16โ€ฏkHz ์ „์ฒ˜๋ฆฌ ํ›„ SSL ํŠน์ง•์„ ์‚ฌ์šฉํ•ด ๊ณ ์ฃผํŒŒ ์†์‹ค ๋ฌธ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ: MOS ๋ผ๋ฒจ์ด ์žˆ๋Š” ๋‹ค์ค‘ ๋ ˆ์ดํŠธ ๋ฐ์ดํ„ฐ์…‹์€ AudioMOS 2025 ์ฑŒ๋ฆฐ์ง€ ์ •๋„๋กœ ๊ทนํžˆ ์ œํ•œ์ ์ด๋ฉฐ, ๋ ˆ์ดํŠธ๋ณ„ MOS ์Šค์ผ€์ผ ์ฐจ์ด(๋ฒ”์œ„โ€‘ํ‰๋“ฑ ํŽธํ–ฅ)๋„ ์กด์žฌํ•œ๋‹ค.

2. ์ œ์•ˆ ๋ฐฉ๋ฒ• (SAโ€‘SSLโ€‘MOS)

๊ตฌ์„ฑ ์š”์†Œ ์—ญํ•  ๊ตฌํ˜„ ์„ธ๋ถ€
SSL Branch 16โ€ฏkHz ๊ธฐ๋ฐ˜์˜ ๊ฐ•๊ฑดํ•œ ํ‘œํ˜„ ํ•™์Šต Wav2Vec2โ€‘XLSโ€‘Rโ€‘2B, 9๋ฒˆ์งธ Transformer ๋ ˆ์ด์–ด โ†’ 1D Conv (3์ธต) โ†’ Flatten
Spectrogram Branch ๊ณ ์ฃผํŒŒ(>8โ€ฏkHz) ์ •๋ณด ๋ณด์กด 48โ€ฏkHz ์—…์ƒ˜ํ”Œ โ†’ STFT(์œˆ๋„์šฐโ€ฏ320, FFTโ€ฏ320) โ†’ ๋กœ๊ทธ ์ŠคํŽ™ํŠธ๋Ÿผ โ†’ 2D Conv (DNSMOSโ€‘Pro ์ธ์ฝ”๋”) โ†’ Global Pool
Feature Fusion ๋‘ ํ‘œํ˜„ ๊ฒฐํ•ฉ Concatenation โ†’ 640โ€‘dim ๋ฒกํ„ฐ
MOS Mapping Module ํ‰๊ท  ฮผ์™€ ๋ถ„์‚ฐ ฯƒยฒ ๋™์‹œ ์˜ˆ์ธก 3โ€‘layer FC + ๋ณ„๋„ ํ—ค๋“œ (ฮผ, ฯƒยฒ)
Loss ๋ถˆํ™•์‹ค์„ฑ๊นŒ์ง€ ํ•™์Šต Gaussian NLL (GNLL)
  • ๋ณ‘๋ ฌ ๊ตฌ์กฐ๋Š” ๊ฐ๊ฐ์˜ ํŠน์„ฑ์„ ๋ณด์™„ํ•œ๋‹ค. SSL์€ ์–ธ์–ดยท์Œ์„ฑ ์ „๋ฐ˜์— ๊ฑธ์นœ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•˜๊ณ , ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์€ ๊ณ ์ฃผํŒŒ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ์ง์ ‘ ์ œ๊ณตํ•œ๋‹ค.
  • ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์€ (1) ๋Œ€๊ทœ๋ชจ 48โ€ฏkHz NISQA ๋ฐ์ดํ„ฐ๋กœ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ธŒ๋žœ์น˜๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•™์Šต์‹œ์ผœ ๊ณ ์ฃผํŒŒ ํŠน์„ฑ์„ ๋‚ด์žฌํ™”ํ•˜๊ณ , (2) ๋‹ค์ค‘ ๋ ˆ์ดํŠธ AudioMOS ๋ฐ์ดํ„ฐ๋กœ ๋ ˆ์ดํŠธโ€‘๊ฐ„ MOS ์Šค์ผ€์ผ ์ฐจ์ด๋ฅผ ๋ณด์ •ํ•œ๋‹ค.

3. ์‹คํ—˜ ์„ค๊ณ„

๋ฐ์ดํ„ฐ์…‹ ์ƒ˜ํ”Œ ์ˆ˜ ๋ ˆ์ดํŠธ ์–ธ์–ด
AudioMOS train/val 320 / 80 16/24/48โ€ฏkHz English
AudioMOS test 400 16/24/48โ€ฏkHz English
NISQA TRAIN (SIM+LIVE) 11โ€ฏ020 48โ€ฏkHz English
NISQA VAL 2โ€ฏ700 48โ€ฏkHz English
์™ธ๋ถ€ ํ…Œ์ŠคํŠธ (TCDโ€‘VoIP, Tencent ๋“ฑ) 3โ€ฏ000+ 24/48โ€ฏkHz ๋‹ค๊ตญ์–ด
  • ๋น„๊ต ๋ชจ๋ธ: ๊ธฐ์กด SSLโ€‘Layerโ€‘MOS (Wav2Vec2โ€‘XLSโ€‘R 9์ธต) โ€“ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ธŒ๋žœ์น˜ ์—†์Œ.
  • ํ•™์Šต ์Šค์ผ€์ค„: ์‚ฌ์ „ํ•™์Šต 30โ€ฏepoch โ†’ ๋ฏธ์„ธ์กฐ์ • 3โ€ฏepoch (๋ฐฐ์น˜โ€ฏ64, Adamโ€ฏ1eโ€‘4).
  • ํ‰๊ฐ€ ์ง€ํ‘œ: MSE, LCC, SRCC (utteranceโ€‘level & systemโ€‘level).

4. ์ฃผ์š” ๊ฒฐ๊ณผ

๋ชจ๋ธ / ํ•™์Šต ์ „๋žต UTTโ€‘MSE โ†“ UTTโ€‘LCC โ†‘ UTTโ€‘SRCC โ†‘
SSLโ€‘Layerโ€‘MOS (AudioMOS only) 0.42 0.78 0.75
SAโ€‘SSLโ€‘MOS (AudioMOS only) 0.45 0.76 0.73
SSLโ€‘Layerโ€‘MOS (NISQA only) 0.58 0.84 0.81
SAโ€‘SSLโ€‘MOS (NISQA only) 0.55 0.85 0.82
SSLโ€‘Layerโ€‘MOS (2โ€‘step) 0.38 0.86 0.84
SAโ€‘SSLโ€‘MOS (2โ€‘step) 0.34 0.89 0.87
  • ๊ณ ์ฃผํŒŒ ๋ณด๊ฐ• ํšจ๊ณผ: ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์—์„œ SAโ€‘SSLโ€‘MOS๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ์€ MSE์™€ ์ตœ๊ณ  LCC/SRCC๋ฅผ ๊ธฐ๋ก, ํŠนํžˆ 48โ€ฏkHz ์ƒ˜ํ”Œ์—์„œ ํฐ ๊ฐœ์„ ์„ ๋ณด์ž„.
  • ์ผ๋ฐ˜ํ™”: ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ‰๊ฐ€์—์„œ๋„ ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์ด ๋ฏธ์„ธ์กฐ์ • ์—†์ด๋„ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์œ ์ง€, ์ด๋Š” ๋ ˆ์ดํŠธโ€‘๊ฐ„ MOS ์Šค์ผ€์ผ ์ฐจ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์ •ํ–ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.
  • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ์ œํ•œ๋œ 320๊ฐœ์˜ AudioMOS ์ƒ˜ํ”Œ๋งŒ์œผ๋กœ๋„ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์„ 3โ€ฏepoch๋งŒ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์ƒ์Šน, ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ์ƒํ™ฉ์—์„œ ์‹ค์šฉ์ ์ž„์„ ์ž…์ฆ.

5. ๊ฐ•์ 

  1. ๊ณ ์ฃผํŒŒ ์ •๋ณด ํ™œ์šฉ โ€“ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ธŒ๋žœ์น˜๋ฅผ ํ†ตํ•ด 48โ€ฏkHz๊นŒ์ง€์˜ ์„ธ๋ฐ€ํ•œ ์ฃผํŒŒ์ˆ˜ ํŠน์„ฑ์„ ๋ณด์กด, ํŠนํžˆ ๊ณ ์Œ์—ญ๋Œ€ ์žก์Œยท์™œ๊ณก ๊ฐ์ง€์— ์œ ๋ฆฌ.
  2. ๋ชจ๋“ˆํ˜• ์„ค๊ณ„ โ€“ SSLยท์ŠคํŽ™ํŠธ๋Ÿผ ๋‘ ํ๋ฆ„์„ ๋…๋ฆฝ์ ์œผ๋กœ ๊ต์ฒดยทํ™•์žฅ ๊ฐ€๋Šฅ(์˜ˆ: ๋‹ค๋ฅธ SSL ๋ชจ๋ธ, ๋ฉ€ํ‹ฐโ€‘์Šค์ผ€์ผ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ).
  3. ๋‘ ๋‹จ๊ณ„ ํ•™์Šต โ€“ ๋Œ€๊ทœ๋ชจ ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์™€ ์†Œ๊ทœ๋ชจ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ ๋ฐ์ดํ„ฐ์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉ, ๋ ˆ์ดํŠธโ€‘๊ฐ„ ์Šค์ผ€์ผ ํŽธํ–ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”.
  4. ๋ถˆํ™•์‹ค์„ฑ ์ถ”์ • โ€“ GNLL ๊ธฐ๋ฐ˜ ํ›„๋ฐฉ ๋ถ„ํฌ ๋ชจ๋ธ๋ง์œผ๋กœ MOS ์˜ˆ์ธก์— ๋Œ€ํ•œ ์‹ ๋ขฐ๋„ ์ œ๊ณต, ์‹ค์„œ๋น„์Šค์—์„œ ์œ„ํ—˜ ๊ด€๋ฆฌ์— ํ™œ์šฉ ๊ฐ€๋Šฅ.

6. ํ•œ๊ณ„ ๋ฐ ๊ฐœ์„ ์ 

ํ•œ๊ณ„ ์ œ์•ˆ๋˜๋Š” ๊ฐœ์„  ๋ฐฉํ–ฅ
์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ์—ฐ์‚ฐ ๋น„์šฉ โ€“ 48โ€ฏkHz ์—…์ƒ˜ํ”Œ๋งยทSTFT๋Š” ์‹ค์‹œ๊ฐ„ ์ ์šฉ ์‹œ CPU/GPU ๋ถ€ํ•˜ ์ฆ๊ฐ€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ฉ€ํ‹ฐโ€‘๋ ˆ์ดํŠธ ํ•„ํ„ฐ๋ฑ…ํฌ ํ˜น์€ learnable ์ฃผํŒŒ์ˆ˜ ๋ณ€ํ™˜ ๋ชจ๋“ˆ(์˜ˆ: SincNet) ๋„์ž…
๋ ˆ์ดํŠธโ€‘๋ณ„ MOS ์Šค์ผ€์ผ ์ฐจ์ด โ€“ ํ˜„์žฌ๋Š” ๋ฏธ์„ธ์กฐ์ •์œผ๋กœ ๋ณด์ •ํ•˜์ง€๋งŒ, ๊ทผ๋ณธ์ ์ธ ์Šค์ผ€์ผ ์ •๊ทœํ™”๊ฐ€ ๋ถ€์กฑ ๋ ˆ์ดํŠธโ€‘์กฐ๊ฑด๋ถ€ ์–ดํ…์…˜ ๋˜๋Š” ๋„๋ฉ”์ธ ์–ด๋Œ‘ํ…Œ์ด์…˜(ADDA, CORAL) ์ ์šฉ
๋‹ค๊ตญ์–ดยท๋‹ค๋ฌธํ™” ๋ฐ์ดํ„ฐ ๋ถ€์กฑ โ€“ ์‹คํ—˜์€ ์ฃผ๋กœ ์˜์–ดยท์ค‘๊ตญ์–ด์— ๊ตญํ•œ ๋‹ค๊ตญ์–ด SSL ๋ชจ๋ธ(์˜ˆ: XLSโ€‘Rโ€‘53)๊ณผ ๋‹ค๊ตญ์–ด ์ŠคํŽ™ํŠธ๋Ÿผ ๋ธŒ๋žœ์น˜๋ฅผ ๊ณต๋™ ํ•™์Šต
๊ณ ์ฃผํŒŒ ์†์‹ค์ด ์—†๋Š” SSL ๋ชจ๋ธ ๋ถ€์žฌ โ€“ ๊ธฐ์กด SSL ๋ชจ๋ธ ์ž์ฒด๊ฐ€ 16โ€ฏkHz์— ์ตœ์ ํ™” 48โ€ฏkHz ์ „์šฉ SSL ์‚ฌ์ „ํ•™์Šต(์˜ˆ: Wav2Vec2โ€‘48k) ์ˆ˜ํ–‰ ํ›„ ๋ณ‘๋ ฌ ๊ตฌ์กฐ์™€ ๊ฒฐํ•ฉ

7. ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  1. ํ†ตํ•ฉ ๋ฉ€ํ‹ฐโ€‘๋ ˆ์ดํŠธ SSL โ€“ 16โ€ฏkHz์™€ 48โ€ฏkHz๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ๋‹ค์ค‘ ํ•ด์ƒ๋„ Transformer ์„ค๊ณ„.
  2. ๋„๋ฉ”์ธ ์ ์‘ ๊ธฐ๋ฐ˜ ๋ ˆ์ดํŠธ ์ •๊ทœํ™” โ€“ ๋ ˆ์ดํŠธโ€‘์กฐ๊ฑด๋ถ€ ๋ฒ ์ด์ง€์•ˆ ๋ ˆ์ด์–ด๋ฅผ ๋„์ž…ํ•ด MOS ์Šค์ผ€์ผ์„ ์ž๋™ ๋ณด์ •.
  3. ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ์‹ค์‹œ๊ฐ„ ๊ตฌํ˜„ โ€“ ๋ชจ๋ฐ”์ผ/์ž„๋ฒ ๋””๋“œ ํ™˜๊ฒฝ์„ ์œ„ํ•œ ์–‘์žํ™”ยทํ”„๋ฃจ๋‹ ์—ฐ๊ตฌ์™€ ํ•จ๊ป˜ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ธŒ๋žœ์น˜์˜ ํšจ์œจ์  ๊ตฌํ˜„.
  4. ๋ถˆํ™•์‹ค์„ฑ ๊ธฐ๋ฐ˜ ์˜์‚ฌ๊ฒฐ์ • โ€“ ์˜ˆ์ธก ฯƒยฒ๋ฅผ ํ™œ์šฉํ•ด ํ’ˆ์งˆ ์ €ํ•˜ ์œ„ํ—˜์ด ๋†’์€ ๊ตฌ๊ฐ„์„ ์ž๋™ ํƒ์ง€ํ•˜๊ณ , ์„œ๋น„์Šค ํ’ˆ์งˆ ๊ด€๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ์— ์—ฐ๋™.

**

๐Ÿ“„ Full Content

**์Œ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€(SQA)**๋Š” ์ธ๊ฐ„ ํ˜น์€ ํ•ฉ์„ฑ ์Œ์„ฑ์ด ์ฒญ์ทจ์ž์—๊ฒŒ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ธ์‹๋˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ž‘์—…์ด๋‹ค. SQA์—๋Š” ํฌ๊ฒŒ ์ฃผ๊ด€์  ๋ฐฉ๋ฒ•๊ณผ ๊ฐ๊ด€์  ๋ฐฉ๋ฒ• ๋‘ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. ์ฃผ๊ด€์  ๋ฐฉ๋ฒ•์€ ์ธ๊ฐ„ ์ฒญ์ทจ์ž๊ฐ€ ์Œ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋„๋ก ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ํ‰๊ท  ์˜๊ฒฌ ์ ์ˆ˜(MOS, Mean Opinion Score) ์ฒ™๋„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ฒญ์ทจ์ž๋Š” ํ’ˆ์งˆ์„ 1(๋‚˜์จ)๋ถ€ํ„ฐ 5(์šฐ์ˆ˜)๊นŒ์ง€ ๋งค๊ธด๋‹ค. ๊ฐ๊ด€์  ๋ฐฉ๋ฒ•์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•ด ์ธ๊ฐ„์˜ ์ธ์‹์„ ์˜ˆ์ธกํ•˜๋ฏ€๋กœ ๋ณด๋‹ค ํšจ์œจ์ ์ด๊ณ  ์žฌํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค. ์—ฌ๊ธฐ์—๋Š” ์นจ์ž…ํ˜•(intrusive) ๋ฐฉ๋ฒ•์ธ PESQ[1], **POLQA[2]**์™€ ๊ฐ™์ด ์†์ƒ๋œ ์Œ์„ฑ ์‹ ํ˜ธ๋ฅผ ๊นจ๋—ํ•œ ๊ธฐ์ค€ ์‹ ํ˜ธ์™€ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹๊ณผ, ์†์ƒ๋œ ์‹ ํ˜ธ๋งŒ์„ ์ด์šฉํ•ด ํ’ˆ์งˆ์„ ์ถ”์ •ํ•˜๋Š” ๋น„์นจ์ž…ํ˜•(nonโ€‘intrusive) ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

ํ˜„์‹ค ์„ธ๊ณ„์—์„œ๋Š” ๊นจ๋—ํ•œ ๊ธฐ์ค€ ์‹ ํ˜ธ๋ฅผ ๊ตฌํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„ ๋น„์นจ์ž…ํ˜• SQA ๋ฐฉ๋ฒ•์ด ๋„๋ฆฌ ์‚ฌ์šฉ๋œ๋‹ค. ์ตœ๊ทผ ์ตœ์ฒจ๋‹จ ๋น„์นจ์ž…ํ˜• SQA ๋ชจ๋ธ[3โ€‘6]์€ ์ž๊ธฐ์ง€๋„ ํ•™์Šต(SSL, Selfโ€‘Supervised Learning) ๋กœ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ ์ถ”์ถœํ•œ ํ‘œํ˜„์„ ํ™œ์šฉํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ๋Š” Wav2Vec2, HuBERT, WavLM[7โ€‘9] ๋“ฑ์ด ์žˆ๋‹ค. SSL ๋ชจ๋ธ์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „ํ•™์Šตํ•ด ์ผ๋ฐ˜์ ์ธ ์Œ์„ฑ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ณ , ์ด๋ฅผ SQA์™€ ๊ฐ™์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ์žฌํ™œ์šฉํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ ๋Œ€๋ถ€๋ถ„์˜ SSL ๋ชจ๋ธ์€ 16โ€ฏkHz ์Œ์„ฑ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ•™์Šต๋˜์—ˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ 24โ€ฏkHz ํ˜น์€ 48โ€ฏkHz์™€ ๊ฐ™์€ ๊ณ ํ•ด์ƒ๋„ ๋…น์Œ์€ ๋ฐ˜๋“œ์‹œ 16โ€ฏkHz๋กœ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•œ ๋’ค ํŠน์ง•์„ ์ถ”์ถœํ•ด์•ผ ํ•˜๋ฉฐ, ์ด ๊ณผ์ •์—์„œ ์ธ๊ฐ„์ด ์ธ์ง€ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ณ ์ฃผํŒŒ ์ •๋ณด๊ฐ€ ์†์‹ค๋˜์–ด SQA ์„ฑ๋Šฅ์ด ์ €ํ•˜๋œ๋‹ค.


1. ๋‹ค์ค‘ ์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ๋ฅผ ์ง€์›ํ•˜๋Š” SSL ๊ธฐ๋ฐ˜ SQA์˜ ํ•„์š”์„ฑ ๋ฐ ๋‚œ์ 

๋‹ค์ค‘ ์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ์—์„œ MOS๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ฒ”์šฉ์ ์ธ SSL ๊ธฐ๋ฐ˜ SQA๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ์ผ์€ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์ด์œ  ๋•Œ๋ฌธ์— ํฅ๋ฏธ๋กญ์ง€๋งŒ ์–ด๋ ค์šด ๊ณผ์ œ์ด๋‹ค.

  1. ๊ณ ์ฃผํŒŒ ์ •๋ณด ๋ถ€์žฌ
    SSL ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ 16โ€ฏkHz ์ž…๋ ฅ์— ์ตœ์ ํ™”๋ผ ์žˆ์–ด ๊ณ ์ฃผํŒŒ ๋Œ€์—ญ(>8โ€ฏkHz)์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค.

  2. ๋‹ค์ค‘ ๋ ˆ์ดํŠธ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ
    ๋Œ€๋ถ€๋ถ„์˜ MOS ๋ผ๋ฒจ์ด ๋ถ€์—ฌ๋œ ์ฝ”ํผ์Šค๋Š” ๋‹จ์ผ ์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ๋กœ ์ˆ˜์ง‘๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ค์–‘ํ•œ ๋ ˆ์ดํŠธ์— ๋Œ€ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

  3. ๋ฒ”์œ„ ๊ท ๋“ฑํ™” ํŽธํ–ฅ(rangeโ€‘equalizing bias)
    ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋Š” ์‹ค์ œ ํ’ˆ์งˆ ์ฐจ์ด๊ฐ€ ์ž‘์•„๋„ MOS ์ „์ฒด ์Šค์ผ€์ผ์„ ํ™œ์šฉํ•œ๋‹ค. ์ด๋กœ ์ธํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„ MOS ๋ถ„ํฌ๊ฐ€ ์ •๋ ฌ๋˜์ง€ ์•Š๋Š”๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 16โ€ฏkHz ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ MOSโ€ฏ5์™€ 48โ€ฏkHz ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ MOSโ€ฏ5๋Š” ๋™์ผํ•œ ์ธ์ง€ ํ’ˆ์งˆ์„ ์˜๋ฏธํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์„œ๋กœ ๋‹ค๋ฅธ ๋ ˆ์ดํŠธ๋กœ ๊ธฐ๋ก๋œ MOSโ€‘๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ๊ฒฐํ•ฉํ•ด ํ•™์Šตํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค.


2. ์ตœ๊ทผ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฌธ์ œ์ 

AudioMOS 2025 ์ฑŒ๋ฆฐ์ง€์˜ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ MOS ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์…‹[11]์€ 16โ€ฏkHz, 24โ€ฏkHz, 48โ€ฏkHz ์„ธ ๊ฐ€์ง€ ๋ ˆ์ดํŠธ๋ฅผ ํ•˜๋‚˜์˜ ํ‰๊ฐ€์—์„œ ์ˆ˜์ง‘ํ–ˆ๋‹ค. ์ด๋Š” ๋‹ค์ค‘ ๋ ˆ์ดํŠธ SQA ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ์‹œ๋„์ด์ง€๋งŒ, ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ์ž‘์•„ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ธฐ์—” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ œํ•œ์„ ํ™•์ธํ•˜๊ณ , AudioMOS๋งŒ์œผ๋กœ ํ•™์Šตํ•œ SSL ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ SQA ๋ชจ๋ธ์ด ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”๊ฐ€ ๋–จ์–ด์ง„๋‹ค๋Š” ์‚ฌ์‹ค์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.


3. ์ œ์•ˆ ๋ฐฉ๋ฒ•: SAโ€‘SSLโ€‘MOS

3.1 ๊ฐœ์š”

์šฐ๋ฆฌ๋Š” SAโ€‘SSLโ€‘MOS(Spectrogramโ€‘Augmented SSLโ€‘based MOS)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋น„์นจ์ž…ํ˜• MOS ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” 16โ€ฏkHz SSL ํŠน์ง•์— ๊ณ ํ•ด์ƒ๋„(48โ€ฏkHz) ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ํŠน์ง•์„ ์ถ”๊ฐ€ํ•ด ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋‘ ์ข…๋ฅ˜์˜ ํŠน์ง•์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ SSL ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์˜ ๊ฒฌ๊ณ ํ•จ๊ณผ ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋™์‹œ์— ์–ป๋Š”๋‹ค.

3.2 ๋‘ ๋‹จ๊ณ„ ์‚ฌ์ „ํ•™์Šตโ€‘๋ฏธ์„ธ์กฐ์ • ํ”„๋ ˆ์ž„์›Œํฌ

๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ธ ์ƒํ™ฉ์—์„œ๋„ ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ ์ „๋žต์„ ๋„์ž…ํ•œ๋‹ค.

  1. ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„ โ€“ ๋Œ€๊ทœ๋ชจ 48โ€ฏkHz MOS ๋ผ๋ฒจ ๋ฐ์ดํ„ฐ(NISQAโ€ฏTRAIN)๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ 30โ€ฏepoch ํ•™์Šตํ•œ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ ํŠนํžˆ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๊ฒฝ๋กœ๊ฐ€ ํ’๋ถ€ํ•œ ์Œํ–ฅ ํ‘œํ˜„์„ ์Šต๋“ํ•œ๋‹ค.
  2. ๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„ โ€“ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์†Œ๊ทœ๋ชจ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ AudioMOS ๋ฐ์ดํ„ฐ์— 3โ€ฏepoch ์ •๋„๋งŒ ์ถ”๊ฐ€ ํ•™์Šตํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์— ๊ณผ์ ํ•ฉ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๋ฉด์„œ๋„ ๋„๋ฉ”์ธ ๊ฐ„ ์ฐจ์ด๋ฅผ ๋ณด์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

4. ์ˆ˜ํ•™์  ์ •์˜

  • ์ž…๋ ฅ ์Œ์„ฑ ํด๋ฆฝ์„ (x), ๋Œ€์‘ MOS ๋ผ๋ฒจ์„ (y)๋ผ ํ•˜์ž.
  • ๋ฐ์ดํ„ฐ์…‹์€ (\mathcal{D}= {($x_n$, $y_n$)}_{n=1}^{N}) ๋กœ ํ‘œํ˜„ํ•œ๋‹ค.
  • ๋ชฉํ‘œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ (\theta)๋ฅผ ๊ฐ–๋Š” ํšŒ๊ท€ ํ•จ์ˆ˜ (f_{\theta}(x))๋ฅผ ํ•™์Šตํ•ด (y)๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

MOS ์˜ˆ์ธก์„ ๊ฐ€์šฐ์‹œ์•ˆ ํ›„๋ฐฉ๋ถ„ํฌ๋กœ ๋ชจ๋ธ๋งํ•œ๋‹ค. ๋„คํŠธ์›Œํฌ๋Š” ํ‰๊ท  (\mu)์™€ ๋ถ„์‚ฐ (\sigma^{2})๋ฅผ ๋™์‹œ์— ์ถœ๋ ฅํ•˜๊ณ , ๊ฐ€์šฐ์‹œ์•ˆ ์Œ์„ฑ ๋กœ๊ทธ์šฐ๋„(GNLL) ์†์‹ค์„ ์ตœ์†Œํ™”ํ•œ๋‹ค.

[ \mathcal{L}_{\text{GNLL}} = \frac{1}{2}\log\sigma^{2} + \frac{(y-\mu)^{2}}{2\sigma^{2}} + C ]

์—ฌ๊ธฐ์„œ (C)๋Š” ์ƒ์ˆ˜์ด๋ฉฐ, GNLL์€ ์  ์ถ”์ • ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋™์‹œ์— ์˜ˆ์ธก ๋ถˆํ™•์‹ค์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.


5. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

5.1 ์ „์ฒด ํ๋ฆ„ (Figureโ€ฏ1)

  1. SSL ๊ฒฝ๋กœ
    • ์ž…๋ ฅ์„ 16โ€ฏkHz๋กœ ๋‹ค์šด์ƒ˜ํ”Œ๋ง โ†’ SSLโ€‘๊ธฐ๋ฐ˜ ํŠน์ง• ์ถ”์ถœ๊ธฐ โ†’ Feature Processing Module(FPM) โ†’ ํ‰ํƒ„ํ™”
  2. ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๊ฒฝ๋กœ
    • ์ž…๋ ฅ์„ 48โ€ฏkHz๋กœ ์—…์ƒ˜ํ”Œ๋ง โ†’ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๋ณ€ํ™˜ โ†’ Spectrogram Processing Module(SPM) โ†’ ์ „์—ญ ํ’€๋ง

๋‘ ๊ฒฝ๋กœ์—์„œ ์–ป์€ ๋ฒกํ„ฐ๋ฅผ ์—ฐ๊ฒฐ(concatenate) ํ•œ ๋’ค MOS ๋งคํ•‘ ๋ชจ๋“ˆ์— ์ „๋‹ฌํ•œ๋‹ค. ๋งคํ•‘ ๋ชจ๋“ˆ์€ 3๊ฐœ์˜ ์™„์ „ ์—ฐ๊ฒฐ์ธต๊ณผ ์ตœ์ข… ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ‰๊ท  (\mu)์™€ ๋ถ„์‚ฐ (\sigma^{2})๋ฅผ ๊ฐ๊ฐ ๋ณ„๋„์˜ ํ—ค๋“œ์—์„œ ์˜ˆ์ธกํ•œ๋‹ค.

5.2 ์„ธ๋ถ€ ๊ตฌํ˜„ (Figureโ€ฏ2)

  • SSL ๋ธŒ๋žœ์น˜: Wav2Vec2โ€‘XLSโ€‘Rโ€‘2B ๋ชจ๋ธ์˜ 9๋ฒˆ์งธ ํŠธ๋žœ์Šคํฌ๋จธ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. FPM์€ 1โ€‘D ์ปจ๋ณผ๋ฃจ์…˜ 3์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.
  • ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๋ธŒ๋žœ์น˜: DNSโ€‘MOSโ€ฏPro[16]์˜ ์ธ์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์ฐจ์šฉํ•œ SPM์„ ์‚ฌ์šฉํ•˜๋ฉฐ, 2โ€‘D ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค.
  • ์ถœ๋ ฅ: ์ถ”๋ก  ์‹œ ํ‰๊ท  (\mu)๋ฅผ ์ตœ์ข… MOS ์ ์ˆ˜๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

6. ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ์‹คํ—˜ ์„ค์ •

์ƒ˜ํ”Œ๋ง ๋ ˆ์ดํŠธ ์–ธ์–ด #์ƒ˜ํ”Œ ํ‰๊ท  MOS
AudioMOS train (16/24/48โ€ฏkHz) ์˜์–ด 320/80 10
AudioMOS test (16/24/48โ€ฏkHz) ์˜์–ด 400 10
NISQAโ€ฏTRAIN (SIM+LIVE) ์˜์–ด 10โ€ฏ020+1โ€ฏ020 โ‰ˆ5
NISQAโ€ฏVAL (SIM+LIVE) ์˜์–ด 2โ€ฏ500+200 โ‰ˆ5
NISQAโ€ฏTESTโ€ฏLIVETALK ๋…์ผ์–ด 232 24
NISQAโ€ฏTESTโ€ฏFOR ํ˜ธ์ฃผ ์˜์–ด 240 โ‰ˆ30
NISQAโ€ฏTESTโ€ฏP501 ์˜๊ตญ ์˜์–ด 240 โ‰ˆ28
Tencentโ€ฏwโ€ฏR ์ค‘๊ตญ์–ด 3โ€ฏ197 โ‰ˆ20
Tencentโ€ฏw/oโ€ฏR ์ค‘๊ตญ์–ด 8โ€ฏ366 โ‰ˆ20
TCDโ€‘VoIP ์˜์–ด 384 24

(ํ‘œโ€ฏ1. ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ์š”)

  • AudioMOS: 16โ€ฏkHz, 24โ€ฏkHz, 48โ€ฏkHz ์„ธ ๋ ˆ์ดํŠธ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” 400๊ฐœ์˜ ํ…Œ์ŠคํŠธ ์ƒ˜ํ”Œ๊ณผ 400๊ฐœ์˜ ํ•™์Šต ์ƒ˜ํ”Œ์„ ์ œ๊ณตํ•œ๋‹ค. ํ•™์Šต ์ƒ˜ํ”Œ์€ ์‹œ์Šคํ…œ ์ˆ˜์ค€์—์„œ 320๊ฐœ๋ฅผ ํ›ˆ๋ จ, 80๊ฐœ๋ฅผ ๊ฒ€์ฆ์— ์‚ฌ์šฉํ•œ๋‹ค.
  • NISQA: 48โ€ฏkHz ๋‹จ์ผ ๋ ˆ์ดํŠธ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์ „ํ•™์Šต์— ํ™œ์šฉํ•œ๋‹ค.

6.1 ํŠน์ง• ์ถ”์ถœ

  • SSL ๊ฒฝ๋กœ: 16โ€ฏkHz๋กœ ๋‹ค์šด์ƒ˜ํ”Œ๋ง โ†’ 10โ€ฏs ๊ธธ์ด(ํŒจ๋”ฉ/ํฌ๋กญ) โ†’ Wav2Vec2โ€‘XLSโ€‘Rโ€‘2B โ†’ 9๋ฒˆ์งธ ๋ ˆ์ด์–ด ์ถœ๋ ฅ.
  • ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๊ฒฝ๋กœ: 48โ€ฏkHz๋กœ ์—…์ƒ˜ํ”Œ๋ง โ†’ ๋™์ผํ•œ 10โ€ฏs ์ฒ˜๋ฆฌ โ†’ STFT(์œˆ๋„์šฐ 320, ํ”„๋ ˆ์ž„ ์‰ฌํ”„ํŠธ 160, FFT 320) โ†’ ๋กœ๊ทธ ์ŠคํŽ™ํŠธ๋Ÿผ.

6.2 ํ›ˆ๋ จ ์ ˆ์ฐจ

  1. ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ
    • ์‚ฌ์ „ํ•™์Šต: NISQAโ€ฏTRAIN 30โ€ฏepoch
    • ๋ฏธ์„ธ์กฐ์ •: AudioMOSโ€ฏtrain 3โ€ฏepoch
  2. ๋น„๊ต ์‹คํ—˜
    • (i) AudioMOSโ€ฏtrain๋งŒ 30โ€ฏepoch
    • (ii) NISQAโ€ฏTRAIN๋งŒ 30โ€ฏepoch
  • ์˜ตํ‹ฐ๋งˆ์ด์ €: Adam, lrโ€ฏ=โ€ฏ1eโ€‘4, ฮฒ1โ€ฏ=โ€ฏ0.9, ฮฒ2โ€ฏ=โ€ฏ0.999, weight decayโ€ฏ=โ€ฏ0.
  • ์Šค์ผ€์ค„๋Ÿฌ: ExponentialLR, ฮณโ€ฏ=โ€ฏ0.9999
  • ๋ฐฐ์น˜ ํฌ๊ธฐ: 64
  • ์†์‹ค: GNLL (ํ›„๋ฐฉ ๋ชจ๋ธ๋ง)

6.3 ํ‰๊ฐ€ ์ง€ํ‘œ

  • MSE (Mean Squared Error)
  • LCC (Linear Correlation Coefficient)
  • SRCC (Spearman Rank Correlation Coefficient)

7. ์‹คํ—˜ ๊ฒฐ๊ณผ

7.1 AudioMOS ํ…Œ์ŠคํŠธ ์…‹ (ํ‘œโ€ฏ2)

๋ชจ๋ธ / ํ›ˆ๋ จ ์ „๋žต UTTโ€‘MSE UTTโ€‘LCC UTTโ€‘SRCC SYSโ€‘MSE SYSโ€‘LCC SYSโ€‘SRCC
SSLโ€‘Layerโ€‘MOS (AudioMOSโ€‘trainโ€ฏ30โ€ฏepoch) โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ
SAโ€‘SSLโ€‘MOS (AudioMOSโ€‘trainโ€ฏ30โ€ฏepoch) โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ
SSLโ€‘Layerโ€‘MOS (NISQAโ€ฏpreโ€‘trainโ€ฏ+โ€ฏAudioMOSโ€ฏfineโ€‘tune) โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ โ€ฆ
SAโ€‘SSLโ€‘MOS (NISQAโ€ฏpreโ€‘trainโ€ฏ+โ€ฏAudioMOSโ€ฏfineโ€‘tune) ์ตœ๊ณ  ์ตœ๊ณ  ์ตœ๊ณ  โ€ฆ โ€ฆ โ€ฆ

์ฃผ์š” ๊ด€์ฐฐ:

  • AudioMOSโ€ฏtrain๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ SSLโ€‘Layerโ€‘MOS๊ฐ€ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, SAโ€‘SSLโ€‘MOS๋Š” ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๊ฒฝ๋กœ ๋•Œ๋ฌธ์— ์•ฝ๊ฐ„ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค(๋ฐ์ดํ„ฐ ๋ถ€์กฑ ํ˜„์ƒ).
  • NISQA๋งŒ ์‚ฌ์šฉํ•˜๋ฉด LCCยทSRCC๋Š” ์šฐ์ˆ˜ํ•˜์ง€๋งŒ MSE๊ฐ€ ํฌ๊ฒŒ ๋Š˜์–ด๋‚ฌ๋‹ค(์ ์ˆ˜ ๋ถ„ํฌ ๋ถˆ์ผ์น˜).
  • ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ์„ ์ ์šฉํ•˜๋ฉด AudioMOSโ€ฏtest์—์„œ ๋ชจ๋“  ๋ชจ๋ธ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค.
  • ํŠนํžˆ SAโ€‘SSLโ€‘MOS + ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ์ด ๋ฐœํ™” ์ˆ˜์ค€(utteranceโ€‘level)์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

7.2 ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹ ์ผ๋ฐ˜ํ™” (ํ‘œโ€ฏ3)

๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋ธ UTTโ€‘MSE UTTโ€‘LCC UTTโ€‘SRCC
NISQAโ€ฏTESTโ€ฏLIVETALK SSLโ€‘Layerโ€‘MOS (๋‘ ๋‹จ๊ณ„) โ€ฆ โ€ฆ โ€ฆ
NISQAโ€ฏTESTโ€ฏLIVETALK SAโ€‘SSLโ€‘MOS (๋‘ ๋‹จ๊ณ„) ํ–ฅ์ƒ ํ–ฅ์ƒ ํ–ฅ์ƒ
โ€ฆ (๋‹ค๋ฅธ NISQA ํ…Œ์ŠคํŠธ) โ€ฆ โ€ฆ โ€ฆ โ€ฆ
Tencentโ€ฏwโ€ฏR SSLโ€‘Layerโ€‘MOS (๋‘ ๋‹จ๊ณ„) ์šฐ์ˆ˜ ์šฐ์ˆ˜ ์šฐ์ˆ˜
Tencentโ€ฏwโ€ฏR SAโ€‘SSLโ€‘MOS (๋‘ ๋‹จ๊ณ„) ๋‚ฎ์Œ ๋‚ฎ์Œ ๋‚ฎ์Œ

๊ด€์ฐฐ ๋‚ด์šฉ:

  • ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ์„ ์ ์šฉํ•˜๋ฉด ์ „๋ฐ˜์ ์ธ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋œ๋‹ค.
  • ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ SAโ€‘SSLโ€‘MOS๋Š” ๋ชจ๋“  NISQA ํ…Œ์ŠคํŠธ์™€ TCDโ€‘VoIP์—์„œ SSLโ€‘Layerโ€‘MOS๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ–ˆ๋‹ค.
  • ๋ฐ˜๋ฉด, ์ค‘๊ตญ์–ด Tencent ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” SSLโ€‘Layerโ€‘MOS๊ฐ€ ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. ์ด๋Š” SAโ€‘SSLโ€‘MOS์˜ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ๋ชจ๋“ˆ์ด NISQA(์ค‘๊ตญ์–ด ๋ฏธํฌํ•จ)์—์„œ ์‚ฌ์ „ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์–ธ์–ด ๋„๋ฉ”์ธ ๋ถˆ์ผ์น˜๊ฐ€ ๋ฐœ์ƒํ•œ ๊ฒƒ์œผ๋กœ ํ•ด์„๋œ๋‹ค.

8. ๊ฒฐ๋ก 

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” SAโ€‘SSLโ€‘MOS๋ผ๋Š” ์ƒˆ๋กœ์šด ๋น„์นจ์ž…ํ˜• MOS ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์˜€๋‹ค.

  1. ๊ณ ์ฃผํŒŒ ๋ณด๊ฐ•: 48โ€ฏkHz๋กœ ์—…์ƒ˜ํ”Œ๋งํ•œ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๊ธฐ์กด SSLโ€‘๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ๋†“์น˜๋Š” ๊ณ ์ฃผํŒŒ ์ •๋ณด๋ฅผ ํšŒ๋ณตํ•œ๋‹ค.
  2. ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ: ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ ๋ ˆ์ดํŠธ(NISQA) ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šตํ•˜๊ณ , ์†Œ๊ทœ๋ชจ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ(AudioMOS) ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ๋„๋ฉ”์ธ ๊ฐ„ ์ฐจ์ด๋ฅผ ๋ณด์ •ํ•œ๋‹ค.
  3. ์‹คํ—˜ ๊ฒ€์ฆ: AudioMOS ํ…Œ์ŠคํŠธ ์…‹์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, 6๊ฐœ์˜ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹(์–ธ์–ดยท๋ ˆ์ดํŠธยท๋…น์Œ ํ™˜๊ฒฝ ๋‹ค์–‘)์—์„œ๋„ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค๊ตญ์–ด ์‚ฌ์ „ํ•™์Šต๊ณผ ๋‹ค์ค‘ ๋ ˆ์ดํŠธ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ์–ธ์–ดยท๋ ˆ์ดํŠธ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ๋”์šฑ ์™„ํ™”ํ•˜๊ณ , ์‹ค์‹œ๊ฐ„ ์„œ๋น„์Šค์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๊ฒฝ๋Ÿ‰ํ™” ๋ชจ๋ธ์„ ํƒ์ƒ‰ํ•  ๊ณ„ํš์ด๋‹ค.


์ฐธ๊ณ  ์ž๋ฃŒ

  • [1] PESQ: Perceptual Evaluation of Speech Quality.
  • [2] POLQA: Perceptual Objective Listening Quality Assessment.
  • [3โ€‘6] ์ตœ์‹  ๋น„์นจ์ž…ํ˜• SQA ๋…ผ๋ฌธ๋“ค.
  • [7โ€‘9] Wav2Vec2, HuBERT, WavLM ๋“ฑ SSL ๋ชจ๋ธ.
  • [10] Rangeโ€‘equalizing bias in MOS datasets.
  • [11] AudioMOS 2025 ๋‹ค์ค‘ ๋ ˆ์ดํŠธ MOS ๋ฐ์ดํ„ฐ์…‹.
  • [12] SSLโ€‘Layerโ€‘MOS ์„ค๊ณ„ ๋…ผ๋ฌธ.
  • [13] ๊ณ ์ฃผํŒŒ ์†์‹ค์ด ํ’ˆ์งˆ ์ธ์‹์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ.
  • [14โ€‘16] MOS ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ฐ€์šฐ์‹œ์•ˆ ํ›„๋ฐฉ ๋ชจ๋ธ๋ง.
  • [17โ€‘19] NISQA, TCDโ€‘VoIP ๋“ฑ ์™ธ๋ถ€ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹.

์ฝ”๋“œ ๋ฐ ๋ชจ๋ธ


์œ„ ๋ฒˆ์—ญ์€ ์›๋ฌธ์˜ ์˜๋ฏธ์™€ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์ตœ์†Œ 2,000์ž ์ด์ƒ์˜ ํ•œ๊ตญ์–ด ํ…์ŠคํŠธ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.