데이터셋 은닉 기법으로 음성 품질 추정 모델의 일반화와 한계 파악
초록
본 논문은 Dataset Concealment(DSC)라는 새로운 평가 절차를 제안한다. DSC는 여러 데이터셋을 이용해 모델을 학습하고, 개별·전역·은닉 모델을 비교함으로써 각 데이터셋에 대한 다양성 격차와 은닉 격차를 정량화한다. 또한 AlignNet의 Dataset Aligner를 도입해 코퍼스 효과를 완화하고, MOSNet, NISQA, Wav2Vec2.0 기반 모델 3종에 적용해 일반화 능력 향상을 실증한다.
상세 분석
DSC는 N개의 데이터셋을 각각 학습·검증·테스트 셋으로 구분하고, 세 종류의 모델을 만든다. 첫째는 개별 모델로, 하나의 데이터셋만 사용해 학습한다. 둘째는 전역 모델로, 모든 데이터셋을 합쳐 하나의 대규모 학습 집합으로 사용한다. 셋째는 은닉 모델로, 특정 데이터셋을 제외하고 나머지 N‑1개를 학습에 활용한다. 각 데이터셋에 대해 개별·전역·은닉 모델을 테스트함으로써 LCC(선형 상관계수) 값을 ρI,j, ρG,j, ρC,j 로 얻는다. 다양성 격차 vj=|ρI,j|−|ρG,j|는 다중 데이터셋 학습이 해당 데이터셋에 미치는 성능 저하를 나타내며, 이상적으로는 0 이하가 바람직하다. 은닉 격차 cj=|ρG,j|−|ρC,j|는 다른 데이터셋으로부터 학습한 지식이 은닉된 데이터셋에 얼마나 전달되는지를 보여준다. 격차가 작을수록 모델의 일반화가 뛰어나다는 의미다.
코퍼스 효과는 서로 다른 주관적 테스트에서 MOS 점수의 절대값 차이로 발생한다. 동일한 음성 파일이라도 실험 조건에 따라 평균 점수가 크게 달라질 수 있어, 다중 데이터셋 학습 시 라벨 노이즈가 생긴다. 이를 완화하기 위해 AlignNet의 Dataset Aligner를 도입한다. Aligner는 데이터셋 인디케이터와 매핑 레이어를 사용해 중간 점수를 각 데이터셋의 스케일에 맞게 변환한다. 학습 과정에서 Aligner를 일정 성능(예: 검증 LCC 0.6) 이후에 활성화하거나, Wav2Vec 기반 모델에서는 처음부터 학습한다.
실험에서는 9개의 학습용 데이터셋과 9개의 완전한 미보류 데이터셋을 사용했다. 모델은 MOSNet(1.4M 파라미터), NISQA(0.218M 파라미터), Wav2Vec2.0 기반 모델(94M 파라미터)이다. 결과는 그림 2와 3에 요약되는데, 개별 모델에서는 MOSNet이 가장 낮은 LCC를 보였고, NISQA가 그 뒤를 이으며, Wav2Vec가 가장 높은 성능을 나타냈다. 전역 모델에서는 Aligner를 적용했을 때 NISQA와 Wav2Vec 모두 다양성 격차가 크게 감소했으며, 특히 Wav2Vec는 은닉 격차도 최소화했다. MOSNet은 Aligner 적용에도 불구하고 여전히 큰 격차를 보였는데, 이는 모델 구조 자체가 데이터셋 간 차이를 학습하기에 충분히 강건하지 않기 때문이다.
또한 1000 파라미터 규모의 Aligner를 94M 파라미터 Wav2Vec 모델에 결합했을 때, 미보류 데이터셋에 대한 LCC가 평균 0.07~0.09 정도 향상되었다. 이는 작은 Aligner가 대규모 SSL 모델의 학습 효율을 크게 높일 수 있음을 시사한다.
DSC는 단순히 전체 평균 성능을 보고하는 것이 아니라, 각 데이터셋별로 모델이 얼마나 잘 일반화되는지를 정량화한다. 이를 통해 연구자는 특정 데이터셋이 “쉬운”지 “어려운”지, 혹은 코퍼스 효과에 의해 왜곡된 라벨을 가지고 있는지를 파악할 수 있다. 또한 모델 설계 단계에서 Aligner와 같은 라벨 정규화 모듈을 도입할지 여부를 객관적인 지표를 통해 결정할 수 있다.
요약하면, DSC는 (1) 데이터셋 간 상호작용을 명확히 드러내는 격차 지표 제공, (2) 코퍼스 효과 완화를 위한 Aligner의 효과 입증, (3) 대규모 SSL 기반 모델이 작은 정렬 모듈과 결합될 때 실질적인 일반화 향상을 얻는다는 세 가지 주요 인사이트를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기