시간변조 오디오 이펙트 모델링을 위한 범용 딥러닝 프레임워크
초록
**
본 논문은 컨볼루션·리커런트·완전연결 레이어를 결합한 딥러닝 구조를 제안한다. 2 k + 1개의 프레임을 입력으로 하는 어댑티브 프런트엔드, 양방향 LSTM 기반 잠재공간, 그리고 SAAF와 SE 블록을 포함한 합성 백엔드를 통해 파저, 플랜저, 코러스, 트레몰로 등 다양한 선형·비선형 시간변조 이펙트를 블랙박스 방식으로 고정밀 재현한다. 또한 변조 주파수 지각을 기반으로 한 객관적 평가 지표를 도입하고, 모델이 학습한 내부 표현을 분석한다.
**
상세 분석
**
이 연구는 기존의 회로 기반 화이트박스·그레이박스 모델링이 특정 아날로그 부품에 의존하고 확장성이 떨어지는 문제점을 인식하고, 완전한 데이터‑드리븐 접근법을 설계했다. 핵심은 시간‑도메인 원시 오디오를 그대로 입력으로 받아, 64‑샘플 필터와 128‑샘플 로컬 필터를 이용해 주파수‑밴드별 특징을 추출하는 어댑티브 프런트엔드이다. 첫 번째 Conv1D 레이어는 절대값 활성화를 사용해 신호의 에너지 흐름을 부드럽게 표현하고, 두 번째 레이어는 로컬 연결을 통해 파라미터 수를 크게 줄이면서도 각 밴드에 특화된 필터를 학습한다.
잠재공간에서는 3개의 양방향 LSTM(Bi‑LSTM) 층을 순차적으로 배치해 전·후향 컨텍스트를 모두 활용한다. 이는 변조 신호가 20 Hz 이하의 저주파에서 장시간에 걸쳐 파라미터를 변화시키는 특성을 포착하는 데 필수적이다. 드롭아웃(0.1)과 Recurrent Dropout을 적용해 과적합을 방지하고, 마지막 Bi‑LSTM에 Smooth Adaptive Activation Function(SAAF)을 도입해 연속적인 비선형 변환을 정밀하게 근사한다. SAAF는 구간별 2차 다항식으로 구성돼 리프팅된 비선형성을 부드럽게 모델링하면서도 Lipschitz 제약을 통해 학습 안정성을 유지한다.
합성 백엔드는 언풀링 → DNN‑SAAF‑SE 블록 → 최종 Conv1D 순으로 구성된다. SE 블록은 채널 간 상관관계를 동적으로 스케일링해 주파수‑밴드별 변조 깊이를 조절한다. 특히, 잔차 연결(R)과 비선형 변조(ˆZ)를 곱한 뒤, DNN‑SAAF‑SE가 생성한 비선형 필터를 적용해 ˆX₁을 얻고, 이를 ˆX₂에 더함으로써 비선형 딜레이 라인 효과를 구현한다. 마지막 전치 컨볼루션은 학습되지 않은 고정 커널(첫 번째 Conv1D의 전치)으로 원래 파형을 복원한다. 전체 파라미터는 약 30만 개로, 실시간 처리에 충분히 가벼운 편이다.
평가 메트릭은 변조 스펙트럼 기반으로, 인간이 변조 주파수를 감지하는 청각 임계값을 고려한 주관적 청취 테스트와 상관관계를 갖도록 설계되었다. 이는 기존의 MSE·SDR 등 단순 파형 차이 지표보다 시간변조 효과의 인지적 품질을 더 정확히 반영한다.
실험에서는 파저, 와와, 플랜저, 코러스, 트레몰로, 비브라토, 링모듈레이터, 레슬리 스피커 등 8가지 변조 기반 이펙트와, 자동와, 컴프레서, 멀티밴드 컴프레서 등 장기 메모리를 요구하는 비변조 이펙트를 대상으로 모델을 학습했다. 모든 경우에서 제안 모델은 원본 이펙트와 거의 구분이 어려운 수준의 파형을 재생성했으며, 변조 스펙트럼 지표에서도 인간 청취자와 높은 상관관계를 보였다. 특히, 비선형 링모듈레이터와 레슬리 스피커처럼 복합적인 진폭·주파수·공간 변조가 결합된 경우에도 모델이 내부적으로 LFO와 비선형 다이오드 특성을 동시에 학습함을 시각화 결과가 확인했다.
결과적으로, 이 논문은 “시간‑변조 오디오 이펙트”라는 특수한 도메인에 대해 일반화 가능한 딥러닝 파이프라인을 제시함으로써, 기존 회로‑중심 접근법의 한계를 뛰어넘는 새로운 패러다임을 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기