오디오미학 점수 예측을 위한 KAN·VERSA 혼합 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 AudioMOS Challenge 2025 Track 2에서 사용된 오디오 미학 점수(AES) 예측 모델을 제안한다. 기존 Audiobox Aesthetics 기반 베이스라인에 Kolmogorov‑Arnold Network(KAN)를 적용해 MLP를 그룹‑라셔널 KAN으로 교체하고, VERSA 툴킷의 다양한 비참조 메트릭을 입력으로 하는 XGBoost 회귀 모델을 추가한다. 라벨 데이터와 pseudo‑label을 활용한 반지도 학습(IPL)으로 KAN 모델을 강화하고, 네 개의 KAN 모델과 하나의 VERSA 모델을 가중 평균으로 앙상블한다. 제안 시스템은 발화 수준·시스템 수준 모두에서 기존 제출 중 최고 수준의 SRCC를 기록하였다.

상세 분석

**
이 연구는 오디오 품질 평가가 인간 청취자의 주관적 판단에 크게 의존한다는 점을 인식하고, 이를 정량화하기 위한 자동화된 AES 예측기를 설계하였다. 핵심 기술은 두 갈래로 나뉜다. 첫 번째는 기존 Audiobox Aesthetics 모델의 MLP 레이어를 그룹‑라셔널 KAN(GR‑KAN)으로 교체한 KAN‑기반 예측기이다. KAN은 각 입력‑출력 쌍마다 학습 가능한 유리 함수 형태의 활성화 함수를 제공함으로써 비선형 표현력을 크게 확대한다. 특히 KAN은 사전 학습된 MLP 가중치를 그대로 초기화할 수 있어, 대규모 AES 라벨 데이터(≈500 시간)로 사전 학습된 베이스라인의 지식을 보존하면서도 더 유연한 함수 근사를 가능하게 한다. 두 번째는 VERSA 툴킷에 포함된 28개의 비참조 메트릭(DNS‑MOS, NISQA, UTMOSv2, TORCHAUDIO‑SQIM 등)을 특성으로 사용하고, XGBoost 기반 회귀 모델을 통해 AES를 직접 예측하는 접근법이다. VERSA는 다양한 도메인(음성, 음악, 사운드)에서 검증된 메트릭을 제공하므로, KAN 모델이 놓칠 수 있는 도메인‑특화 신호를 보완한다.

학습 단계에서는 라벨이 있는 AMC25와 PAM 데이터셋을 기본으로 사용하고, VMC22의 8 459개 비라벨 샘플을 pseudo‑label링한다. 초기 교사 모델은 베이스라인을 이용해 pseudo‑label을 생성하고, 이를 포함한 데이터셋으로 학생(KAN) 모델을 fine‑tune한다. 이후 개발 셋 손실이 개선될 때마다 학생을 교사로 교체하는 iterative pseudo‑labeling(IPL) 전략을 적용했으며, 최대 5번의 업데이트를 허용했다. 이 과정은 특히 데이터 불균형이 심한 TT‑A·TT‑M 도메인에서 일반화 성능을 크게 끌어올렸다.

앙상블은 네 개의 서로 다른 random seed로 학습된 KAN 모델과 VERSA 모델을 가중 평균(stacking)하는 방식이다. 그리드 서치를 통해 최적 가중치를 찾았으며, 결과적으로 개별 모델이 가진 편향을 상쇄하고 SRCC를 전반적으로 향상시켰다. 실험 결과는 다음과 같다. KAN 모델은 모든 AES 축에서 베이스라인 대비 SRCC가 0.02~0.07 상승했으며, PAM 데이터 추가 시 PQ·CE·CU 축에서 MSE가 현저히 감소했다. VERSA 모델은 CE·CU 축에서 MSE와 SRCC 모두 경쟁력 있었지만, PQ·PC에서는 상대적으로 낮은 성능을 보였다. 최종 앙상블은 발화 수준에서 PQ·CE·CU, 시스템 수준에서 CE·CU 축에서 최고 SRCC를 기록했으며, 전체 평균에서도 최상위를 차지했다. 다만, 목표 변수의 역변환 및 일부 TTM 데이터에서 발생한 이상치 때문에 MSE는 여전히 개선 여지가 있다.

이 논문은 KAN의 고차원 비선형 표현력과 VERSA의 도메인‑다양 메트릭을 결합함으로써, 멀티모달 오디오(음성, 음악, 사운드) 전반에 걸친 주관적 품질 예측을 효과적으로 수행할 수 있음을 입증한다. 또한 IPL 기반 반지도 학습이 제한된 라벨 데이터 상황에서 모델 일반화에 크게 기여한다는 점을 실증하였다. 향후 연구에서는 pseudo‑label 품질 향상, 메트릭 선택 최적화, 그리고 목표 변수의 스케일링 기법을 통해 MSE를 낮추는 방향이 제안된다.

오디오미학 점수 예측을 위한 KAN·VERSA 혼합 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기