Flow2GAN 고품질 오디오 생성을 위한 하이브리드 흐름 매칭·GAN 및 다중해상도 네트워크
초록
Flow2GAN은 흐름 매칭(Flow Matching)으로 안정적인 사전 학습을 수행하고, 이후 경량 GAN 파인튜닝을 통해 1·2·4 단계의 초저지연 추론을 가능하게 하는 두 단계 프레임워크이다. 오디오 특성을 고려해 목표를 엔드포인트 예측으로 재정의하고, 스펙트럼 에너지 기반 손실 스케일링을 적용해 조용한 구간의 퍼셉션 손실을 보강한다. 또한 서로 다른 시간‑주파수 해상도의 푸리에 계수를 동시에 처리하는 다중‑브랜치 ConvNeXt 구조를 도입해 표현력을 크게 향상시켰다. 실험 결과, 멜‑스펙트로그램 및 이산 오디오 토큰 조건에서 기존 GAN·Flow Matching 기반 모델보다 품질‑효율성 트레이드오프가 우수함을 입증한다.
상세 분석
본 논문은 오디오 생성 분야에서 GAN과 확산(Flow Matching) 모델이 각각 가지고 있는 장단점을 정밀하게 분석하고, 이를 보완하는 하이브리드 설계를 제시한다. 첫 번째 단계인 Flow Matching 학습에서는 기존 방식이 “속도(v) 추정”에 의존해 빈 구간이나 무음 구간에서 큰 오차를 발생시키는 문제를 지적한다. 이를 해결하기 위해 저자들은 목표 함수를 “엔드포인트(x₁) 예측”으로 전환한다. 수식적으로는 기존 L_FM = E‖fθ(x_t,t)−v_t‖² 를 L′_FM = E‖gθ(x_t,t)−x₁‖² 로 바꾸어, 네트워크가 노이즈가 섞인 중간 상태 x_t 로부터 최종 클린 오디오 x₁을 직접 복원하도록 학습한다. 이때 (1−t)² 가중치를 제거함으로써 작은 t(즉, 낮은 노이즈 수준)에서의 학습을 강화하고, 무음 구간에서도 안정적인 역전파가 가능하도록 설계하였다.
두 번째로, 인간 청각은 낮은 에너지 구간의 작은 오류에도 민감하므로, 손실을 스펙트럼 에너지에 역비례하도록 스케일링한다. 구체적으로 STFT와 선형 필터뱅크(LinFB)를 이용해 각 프레임·주파수 셀의 에너지를 계산하고, √S(x₁)+ε 로 역스케일링한다. 이 스케일링은 기존의 프레임 단위 에너지 가중치와 달리 시간·주파수 전역에서 균형을 맞추어, 조용한 구간의 디테일을 강조한다.
네트워크 아키텍처는 ConvNeXt 기반의 멀티‑브랜치 설계를 채택한다. 각 브랜치는 서로 다른 시간‑주파수 해상도의 푸리에 계수를 입력받아 독립적인 특성 추출을 수행하고, 최종적으로 피처를 합쳐서 고해상도 오디오를 재구성한다. 이는 단일 해상도 설계에 비해 다양한 스케일의 음향 패턴을 포착할 수 있어, 특히 고주파 디테일 복원에 유리하다.
세 번째 단계인 GAN 파인튜닝에서는 사전 학습된 Flow Matching 모델을 N‑step(1,2,4) 생성기로 변환하고, 각각을 별도 모델로 독립 파인튜닝한다. 다중‑주기(MPD)와 다중‑해상도(MRD) 디스크리미네이터를 활용해 힌지 GAN 손실, L1 피처 매칭, 멀티스케일 멜‑스펙트로그램 재구성 손실을 결합한다. 중요한 점은 파인튜닝이 몇 번의 에포크만으로도 품질을 크게 끌어올릴 수 있다는 점이며, 추가 파인튜닝을 통해 미세한 개선을 얻을 수 있다.
실험에서는 멜‑스펙트로그램과 이산 오디오 토큰 두 종류의 조건을 모두 사용했으며, MOS, PESQ, STOI 등 다양한 객관·주관 지표에서 기존 최첨단 GAN(HiFi‑GAN, BigVGAN) 및 Flow Matching 기반 모델을 능가한다. 특히 1‑step GAN 파인튜닝 모델은 2‑step 표준 Flow Matching 대비 품질 저하가 거의 없으며, 연산량과 지연 시간 면에서 현저히 우수함을 보여준다.
전체적으로 이 논문은 (1) 오디오 특화 Flow Matching 재정의, (2) 스펙트럼 기반 손실 스케일링, (3) 다중‑해상도 ConvNeXt 백본, (4) 경량 GAN 파인튜닝이라는 네 가지 핵심 기여를 통해, 고품질·고효율 오디오 생성이라는 두 마리 토끼를 동시에 잡았다.
댓글 및 학술 토론
Loading comments...
의견 남기기