Gencho 확산 트랜스포머 기반 방음향 응답 생성 모델
초록
Gencho는 반향 음성에서 방의 충격 응답(RIR)을 추정하는 새로운 확산‑트랜스포머 모델이다. 구조‑인식 오디오 인코더가 초기 반사와 후기 잔향을 분리해 128 차원 임베딩을 만든 뒤, 복소 스펙트럼을 확산 과정으로 생성한다. 텍스트 조건도 지원해 다양한 실내 음향을 자유롭게 시뮬레이션한다.
상세 분석
본 논문은 블라인드 RIR 추정이라는 난제에 대해 기존의 파라메트릭·비생성 모델이 갖는 표현력 한계와 일반화 문제를 지적한다. 특히 FiNS와 같은 시간‑도메인 업샘플링 방식은 초기·후기 반사의 구조적 차이를 충분히 반영하지 못해, 새로운 환경에서 비현실적인 RIR을 생성한다는 단점을 가진다. Gencho는 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 구조‑인식 오디오 인코더는 사전 훈련된 스피치 강화 모델을 이용해 입력 음성을 ‘초기 반사 성분(≈50 ms)’과 전체 반향 음성으로 분리한다. 두 채널을 동시에 처리함으로써 초기 반사의 스파스 특성과 후기 잔향의 디퓨즈 특성을 별도로 학습하고, 레이어 정규화와 어댑티브 평균 풀링을 통해 정적 입력(예: 침묵 구간)에서도 안정적인 128‑차원 전역 임베딩 w_ref를 얻는다. 둘째, 디퓨전 디코더는 복소 스펙트럼 공간에서 작동한다. RIR을 µ‑law 인코딩 후 128‑점 FFT, 64‑샘플 홉으로 변환해 65 × 751 복소 행렬을 얻고, 실수·허수 성분을 130 × 751 형태로 스택한다. 이 고차원 복소 데이터는 전통적인 VAE 기반 라티스와 달리 음향적 거리와 의미적 관계가 잘 맞아, 디퓨전 과정에서 더 정밀한 노이즈 스케줄링과 v‑prediction 재파라미터화를 적용할 수 있다. DiT( Diffusion Transformer ) 구조는 RMS 정규화·셀프‑어텐션·크로스‑어텐션을 순차적으로 쌓아, 현재 타임스텝 임베딩과 전역 임베딩 w_ref를 교차 어텐션으로 결합한다. 클래스‑프리 가이던스를 10 % 확률로 적용해 조건부·무조건부 분포를 동시에 학습함으로써, 모델이 다양한 실내 환경을 포괄적으로 표현하도록 유도한다. 실험에서는 48 kHz, 1 s 길이의 RIR을 목표로, 기존 FiNS와 GAN 기반 모델 대비 PESQ, STOI, T60 추정 정확도에서 우수함을 보였으며, 청취 테스트에서도 ‘자연스러운 잔향’과 ‘색채 보존’ 측면에서 높은 선호도를 얻었다. 또한 텍스트 프롬프트(예: “큰 강당, 2 s 리버브”)를 입력해 RIR을 직접 생성함으로써, AR/VR 및 텍스트‑투‑오디오 파이프라인에 바로 활용 가능한 소프트 매칭 기능을 시연했다. 한계점으로는 현재 복소 스펙트럼 차원(130 × 751) 때문에 메모리 요구가 크고, 매우 긴(>2 s) RIR에 대해서는 타임스텝 수 증가가 필요하다는 점이 있다. 향후 연구에서는 멀티‑스케일 디퓨전, 라티스 압축, 그리고 이미지·비디오 기반 환경 설명과의 멀티모달 조건화를 통해 더욱 확장된 실내 음향 시뮬레이션을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기