GAN 기반 위상 복원으로 빠르고 고품질 신호 재구성
본 논문은 magnitude 스펙트로그램만으로부터 시간 영역 신호를 복원하는 문제를 다룬다. 기존의 Griffin‑Lim 알고리즘은 반복 횟수가 많고 실시간 적용이 어려운 단점이 있다. 저자들은 이 과정을 딥 뉴럴 네트워크로 모델링하고, 생성적 적대 신경망(GAN) 프레임워크를 이용해 학습함으로써 더 적은 연산으로 높은 음질을 달성한다. 실험 결과, 제안 방법이 Griffin‑Lim보다 빠르고 청취자 선호도에서도 우수함을 확인하였다.
저자: Keisuke Oyamada, Hirokazu Kameoka, Takuhiro Kaneko
본 논문은 magnitude 스펙트로그램만으로부터 원본 시간 영역 신호를 복원하는 문제, 즉 위상 복원 문제에 대한 새로운 접근법을 제시한다. 전통적으로 사용되는 Griffin‑Lim 알고리즘은 magnitude와 임의의 초기 위상을 이용해 반복적으로 STFT와 역STFT를 오가며 위상을 업데이트한다. 이 과정은 선형 투영(WW⁺)과 위상 교체(∠·)라는 두 연산을 번갈아 수행하는 형태이며, 수백 번의 반복이 필요해 실시간 처리에 부적합하고, 경우에 따라서는 높은 품질의 신호를 얻지 못한다는 한계가 있다.
저자들은 Griffin‑Lim의 반복 과정을 고정된 가중치와 활성함수를 가진 깊은 신경망으로 해석한다. 이를 바탕으로 “deep unfolding” 개념을 차용해, 각 반복을 네트워크 레이어로 펼치고, 레이어 파라미터를 학습 가능한 형태로 전환한다. 이렇게 구성된 네트워크를 Generator G라 명명하고, G는 magnitude 스펙트로그램 a와 초기 위상 φ를 입력으로 받아 복소 스펙트로그램 ˆc(또는 직접 시간 신호 x)를 출력한다.
Generator만으로 학습을 진행하면 L1·L2와 같은 단순 손실이 평균적인 스무딩 효과를 가져와 음질 저하가 발생한다. 이를 해결하기 위해 저자들은 적대적 학습 구조인 GAN을 도입한다. Discriminator D는 실제 복소 스펙트로그램 c와 Generator가 만든 ˆc를 구분하도록 훈련된다. 손실 함수는 LSGAN 형태의 제곱 오차 손실 V(D)와 Generator가 D를 속이기 위한 U(G)로 구성된다. 추가적으로, D의 여러 중간 레이어에서 추출한 특징 벡터 간 L2 거리 손실 I(G)를 가중합해 λ·I(G) 형태로 Generator의 최종 목표에 포함시킨다. 이 복합 손실은 위상 복원 시 고주파 디테일과 전반적인 스펙트럼 구조를 동시에 보존하도록 유도한다.
데이터 준비 단계에서는 30명의 화자 음성(28명 훈련, 2명 평가)에서 1초 길이 세그먼트를 추출하고, 16 kHz 샘플링, 64 ms Hann 창, 32 ms 오버랩으로 STFT를 수행해 magnitude 스펙트로그램을 만든다. 초기 위상은 무작위로 생성해 여러 변형 파형을 만든 뒤, 동일 magnitude에 대해 다양한 초기 위상을 부여함으로써 데이터 증강을 수행한다. 이는 “초기 위상은 임의적이지만 인접 프레임 간 위상 차이는 의미가 있다”는 사실을 모델이 학습하도록 돕는다.
네트워크 구조는 완전 컨볼루션 기반이며, Generator는 PReLU 활성화, Discriminator는 Leaky ReLU를 사용한다. 각 레이어의 필터 수·크기·스트라이드 등 하이퍼파라미터는 기존 음성 복원 연구
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기