물리 모델 복제와 실시간 합성을 위한 조건부 적대적 오토인코더

본 논문은 활 현악기 물리 모델을 대상으로, 알려진 파라미터를 조건으로 하는 적대적 오토인코더(AAE)를 설계·학습시켜 파라미터 추정과 신호 재생성을 동시에 수행한다. 잠재 변수는 조건 파라미터가 설명하지 못하는 변동성을 포착하도록 두었으며, 적대적 정규화를 통해 잠재 공간을 균등하고 독립적인 분포로 강제한다. 정규화 유무에 따른 재구성 정확도와 파라미터 추정 성능을 비교하고, 실시간 구현인 “Sounderfeit” 시스템을 제시한다.

저자: Stephen Sinclair

물리 모델 복제와 실시간 합성을 위한 조건부 적대적 오토인코더
본 논문은 물리 모델링 기반 활 현악기 신디사이저를 대상으로, 조건부 적대적 오토인코더(Conditional Adversarial Autoencoder, AAE)를 설계하고 이를 통해 파라미터 추정 및 신호 재생성, 실시간 합성까지 포괄하는 시스템을 제안한다. 연구 배경으로는 물리 모델링이 복잡한 비선형 변환을 포함해 파라미터와 음향 사이의 직접적인 매핑을 제공하지만, 실제 파라미터를 역추정하거나 새로운 파라미터 조합을 실시간으로 적용하기엔 제한이 있다는 점을 들었다. 기존의 ANN 기반 파라미터 추정은 주로 블랙박스 회귀 모델에 의존했으며, 오디오 합성에서는 샘플‑단위 autoregressive 모델(WaveNet, SampleRNN)이나 프레임‑단위 스펙트럼 모델(NSynth) 등이 주류를 이루었다. 그러나 이러한 방법들은 대규모 데이터와 고차원 잠재 공간을 필요로 하거나, 실시간 인터랙션에 부적합한 경우가 많다. 연구에서는 두 가지 목표를 설정했다. 첫째, 알려진 물리 파라미터를 조건으로 삼아 오토인코더가 파라미터→신호와 신호→파라미터 양방향 매핑을 동시에 학습하도록 한다. 둘째, 잠재 변수에 적대적 정규화를 적용해 잠재 공간을 균등하고 독립적인 분포로 강제함으로써 인터폴레이션 및 실시간 제어가 용이하도록 만든다. 데이터는 STK(Synthesis Toolkit)에서 제공하는 bowed string 모델을 사용해 생성하였다. 파라미터는 활 압력, 활 속도, 활 위치, 주파수 네 개이며, 각각 0‑128의 정수값을 -1~1 범위로 정규화했다. 첫 번째 데이터셋(bowed1)은 각 파라미터 조합에 대해 1초 정적 파형을 녹음하고, 마지막 두 주기를 추출해 차분 형태(200 샘플)로 변환했다. 총 15,731개의 샘플이 확보되었으며, 이는 주기 기반 입력이므로 위상 정렬과 차분을 통해 노이즈를 억제했다. 그러나 이 데이터는 정적 상태만 포함하므로 파라미터 변화에 대한 동적 정보를 제공하지 못해 추정 성능이 제한적이었다. 이를 보완하기 위해 두 번째 데이터셋(bowed2)을 구축했는데, 파라미터를 무작위로 변동시키며 연속적으로 100,000개의 샘플을 수집했다. 이 데이터는 동적 전이와 비정상 상태를 포함해 파라미터 추정 정확도를 크게 향상시켰다. 추가 실험으로 인간 모음( a, e, i, o, u )을 3초 동안 일정 주파수로 녹음해 5개의 조건 파라미터(정수 0‑4)와 함께 사용하였다. 네트워크 구조는 1‑D 컨볼루션 레이어와 풀링을 이용한 인코더, 전결합 레이어를 거친 디코더로 구성되었다. 인코더는 입력 파형과 조건 파라미터를 결합해 잠재 변수 z(2‑3 차원)와 함께 코드 c를 만든다. 디코더는 c와 z를 받아 원본 파형을 재구성한다. 판별기 D는 잠재 변수 z만을 입력받아 실제(인코더 출력)와 가짜(표준 정규분포 샘플)를 구분한다. 손실 함수는 재구성 MSE와 판별기 교차 엔트로피 손실을 가중합한 형태이며, 학습은 교대로 최적화한다. 실험에서는 정규화가 없는 경우 재구성 MSE가 약 0.0012로 낮았지만, 잠재 공간이 비정형적이라 인터폴레이션 시 급격한 음색 변이가 발생했다. 반면 적대적 정규화를 적용하면 MSE가 0.0015 정도로 약간 상승했지만, 잠재 변수의 분포가 가우시안에 가깝게 정렬되어 2‑D 시각화 시 원형 클러스터를 형성했고, 선형 보간 시 부드러운 음색 변화를 확인했다. 파라미터 추정 실험에서는 bowed2 데이터로 학습한 모델이 평균 절대 오차 0.07(정규화된 범위) 이하를 기록했으며, bowed1 모델은 동적 변화를 포착하지 못해 오차가 0.15 이상으로 크게 늘었다. 시스템 구현 측면에서는 C++ 기반 JUCE 프레임워크를 사용해 실시간 플러그인 형태로 배포하였다. 사용자 인터페이스는 2‑3개의 슬라이더(조건 파라미터)와 2‑3개의 노브(잠재 변수)로 구성되며, 내부에서는 인코더와 디코더를 각각 1‑ms 이하의 지연으로 실행한다. 이를 통해 실시간으로 파라미터를 조작하면서 새로운 음색을 생성하거나 기존 음색을 변형할 수 있다. 또한, 학습된 디코더를 독립 실행형 신디사이저 엔진으로 추출해 다른 DAW와도 연동 가능하도록 설계했다. 결론적으로, 조건부 적대적 오토인코더는 물리 모델의 복제와 파라미터 추정에 효과적인 도구임을 입증하였다. 적대적 정규화는 잠재 공간을 제어 가능하게 만들어 인터폴레이션 및 실시간 조작에 유리하지만, 재구성 정확도는 약간 감소한다는 트레이드오프가 존재한다. 데이터셋 설계가 파라미터 추정 성능에 큰 영향을 미치며, 동적 변화를 포함한 데이터가 필요함을 강조한다. 향후 연구에서는 더 복잡한 물리 모델(예: 다중 현, 비선형 비브라토)과 고차원 잠재 공간을 탐색하고, 퍼셉트루얼 손실이나 GAN 기반 오디오 디코더를 결합해 음질을 향상시키는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기