실시간 사운드 합성을 위한 실값 파라미터 조건화 RNN

본 논문은 실시간 인터랙티브 사운드 합성을 목표로, 피치, 볼륨, 악기 식별자와 같은 연속적인 실값 파라미터를 오디오와 함께 입력으로 사용해 다음 오디오 샘플을 예측하는 순환 신경망(RNN)을 설계·훈련하였다. 기존 연구에서는 주로 이산적인 레이블(음소, 악기 종류 등)을 보조 입력으로 활용했으나, 악기 합성에서는 피치와 볼륨처럼 순서가 존재하고 연속적인 제어가 필수적이다. 따라서 저자는 4차원 입력 벡터(현재 오디오 샘플 + 피치 + 볼륨 + 악기 ID)를 0‑1 범위로 정규화하고, 이를 선형 레이어를 통해 40차원 숨김 공간에 매핑한다. 이후 4계층의 GRU(각 40유닛)로 구성된 순환 구조가 시간적 의존성을 학습하고, 최종 선형 레이어가 256차원의 원‑핫 벡터(μ‑law 8‑bit 인코딩된 오디오 값)로 출력한다. 훈련 데이터는 두 종류의 합성 톤(짝수 배음, 홀수 배음)과 실제 트럼펫·클라리넷 녹음(각 13개 음, E4~E5 1옥타브 범위)으로 구성하였다. 각 음원은 온셋(0‑0.5 s)과 디케이(3‑4 s)를 제거한 “steady‑state” 구간을 추출하고, RMS 정규화를 거쳐 동일한 음량으로 맞추었다. 피치 파라미터는 NSynth 데이터베이스에서 제공하는 MIDI‑like 값으로 사용했으며, 볼륨은 원본 신호를 곱셈적으로 스케일링해 여러 레벨을 생성하였다. 시퀀스 길이는 256샘플(16 kHz 기준 약 5주기)이며, 무작위 추출된 시퀀스를 배치(256) 단위로 학습하였다. 학습 과정에서는 Adam 옵티마이저와 교차 엔트로피 손실을 사용했으며, 가중치 업데이트는 표준 BPTT(back‑propagation through time)로 수행하였다. 입력에 10 % 정도의 균일 노이즈를 추가해 일반화 능력을 약간 강화했지만, 드롭아웃이나 배치 정규화와 같은 추가 정규화 기법은 적용하지 않았다. 실험은 크게 두 가지 질문에 초점을 맞추었다. 첫째, 파라미터 공간을 얼마나 조밀히 샘플링해야 일반화가 가능한가? 이를 검증하기 위해 피치 파라미터를 최저와 최고값(극단값)만 사용해 합성 톤을 학습시켰다. 생성 단계에서 피치 파라미터를 연속적으로 스윕하면, 네트워크는 비선형적인 보간을 수행하면서도 전체 피치 범위를 커버했다. 스펙트로그램은 중간값에서 약간의 “스티키” 현상과 음질 저하가 보였지만, 급격한 변동 없이 부드럽게 변하는 피치를 제공했다. 둘째, 급격한 파라미터 변화에 대한 응답성은 어떠한가? 이를 위해 개별 피치만 학습한 뒤, E‑major 아르페지오(7음)를 5 s 동안 연속적으로 재생하도록 파라미터를 급변하게 주었다. 결과는 파라미터 변화 직후 약 10 ms 이내에 새로운 피치가 반영되었으며, 전이 구간에서도 자연스러운 잔향이 유지되었다. 중간 피치에서는 짝수·홀수 배음이 혼합된 음색이 나타났지만, 이는 훈련되지 않은 영역에서 기대할 수 있는 현상이다. 또한, 파라미터가 지속적으로 제공되므로 자동 회귀 방식에서 흔히 발생하는 누적 오차에 의한 피치 드리프트가 전혀 관찰되지 않았다. 이러한 결과는 (1) 연속적인 실값 파라미터를 조건화함으로써 훈련 데이터의 밀도를 크게 높이지 않아도 충분히 부드러운 보간이 가능함, (2) 급격한 파라미터 변동에도 짧은 전이 지연으로 실시간 인터랙션이 가능함, (3) 파라미터 입력이 자동 회귀 모델의 누적 오류를 억제해 피치 안정성을 보장함을 보여준다. 제안된 모델은 비교적 소형(4 × 40 GRU)이며, 실시간 음악 제작 도구나 인터랙티브 사운드 설치에 바로 적용할 수 있는 수준이다. 향후 연구에서는 파라미터 차원을 확대(예: 필터 컷오프, 이펙트 파라미터)하거나, 더 다양한 악기와 연주 스타일을 포함한 대규모 데이터셋으로 확장해 실제 음악 프로덕션 환경에 적용하는 방안을 탐색할 수 있다.

실시간 사운드 합성을 위한 실값 파라미터 조건화 RNN

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기