음악 사운드 모델링을 위한 오토인코더 비교: 선형·심층·순환·변분 모델 평가

본 연구는 NSynth 데이터베이스의 고해상도 단시간 스펙트럼을 저차원 벡터로 압축하기 위해 PCA, 얕은·깊은 오토인코더(AE), LSTM 기반 순환 오토인코더, 변분 오토인코더(VAE)를 체계적으로 비교한다. 재구성 오류와 PEMO‑Q 기반 청감 품질을 측정한 결과, 선형 PCA가 얕은 AE보다 우수했으며, 깊은 AE와 LSTM‑AE가 가장 낮은 RMSE를 보였다. VAE는 정규화된 잠재공간을 제공하면서도 PCA보다 좋은 성능을 유지한다.

저자: Fanny Roche (1, 2), Thomas Hueber (1)

본 연구는 음악 사운드 모델링을 위한 차원축소 기법을 포괄적으로 비교·분석한다. 데이터는 구글의 NSynth 데이터베이스에서 무작위로 추출한 10 000개의 4초 길이 단음(모노) 샘플을 사용했으며, 이는 1 006개의 악기, 다양한 피치(MIDI 21~108)와 다섯 단계의 벨로시티를 포함한다. 데이터는 1 024‑점 STFT(50 % 오버랩, Hamming 창)로 변환하고, 513 차원의 양수 주파수 스펙트럼을 로그 스케일로 변환한 뒤, 에너지 정규화와 −100 dB 임계값 적용, −1~1 정규화 과정을 거쳐 신경망 입력으로 사용한다. 비교 대상은 다음과 같다. ① PCA: 입력 행렬을 고유벡터로 투영해 차원을 축소한다. ② 얕은 AE: 입력‑출력 구조가 동일한 단일 은닉층(비선형 활성화)으로 구성되며, 손실은 MSE이다. ③ 깊은 AE(DAE): 은닉층을 2~3개 추가해 비선형 표현력을 강화했으며, 레이어‑와이즈 사전학습과 엔드‑투‑엔드 학습 두 방식을 실험했다. 네트워크 구조는

음악 사운드 모델링을 위한 오토인코더 비교: 선형·심층·순환·변분 모델 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기