딥 트랜스폼을 이용한 시간 영역 오디오 오류 복원

초록

본 논문은 컨볼루션 신경망을 활용해 시간‑도메인 음성 신호를 재구성하는 ‘딥 트랜스폼(DT)’을 학습하고, 이를 기반으로 손상된 음성을 확률적 재합성 방식으로 복원한다. 동일 화자에 대한 극심한 잡음·손실 상황에서도 청취 가능 수준의 복원이 가능함을 실험을 통해 입증한다.

상세 요약

이 연구는 기존의 오디오 오류 정정 기법이 주로 주파수‑도메인에서 복잡한 변환을 필요로 하거나, 사전 지식(예: 채널 모델, 오류 패턴)이 요구되는 점을 보완하고자 한다. 저자들은 먼저 1‑초 길이의 원시 파형을 입력으로 하는 1‑차원 컨볼루션 신경망(CNN)을 설계하였다. 네트워크는 5개의 인코더 레이어와 5개의 디코더 레이어로 구성되며, 각 레이어는 64~~256개의 필터와 3~~5 샘플의 커널 크기를 가진다. 인코더‑디코더 구조는 ‘오토인코더’와 유사하지만, 출력층에서는 입력 파형과 동일한 차원의 연속 신호를 직접 재생성한다는 점에서 차별화된다.

학습 단계에서는 깨끗한 음성 데이터를 사용해 평균 제곱 오차(MSE)를 최소화하도록 최적화한다. 이때, 입력 파형에 인위적으로 작은 가우시안 잡음을 추가함으로써 네트워크가 약간의 변동성에도 강인하도록 만든다. 학습이 완료된 모델은 ‘딥 트랜스폼(DT)’이라 명명되며, 입력 파형을 고차원 특징 공간으로 매핑한 뒤 다시 원래 차원으로 복원하는 비선형 변환 역할을 한다.

핵심 아이디어는 손상된 음성에 대해 여러 번(예: 100~500회) 무작위 마스크를 적용해 부분적으로 가려진 파형을 생성하고, 각각을 DT에 통과시킨 뒤 평균을 취하는 ‘확률적 재합성(probabilistic re‑synthesis)’이다. 마스크는 일정 비율(예: 30 %)의 샘플을 0으로 만들고, 남은 샘플은 원본값을 그대로 유지한다. 이렇게 다수의 변형된 입력을 동시에 처리함으로써, 네트워크는 손실된 구간에 대한 다중 후보를 생성하고, 평균화 과정에서 잡음은 상쇄되고 신호는 강화된다.

실험에서는 동일 화자의 10 분 음성을 학습 데이터로 사용하고, 테스트 데이터는 동일 화자이지만 전혀 다른 문장을 사용하였다. 손상 방식은 (1) 랜덤 샘플 삭제(30 %~70 %); (2) 고정 구간에 대한 완전 삭제; (3) 백색 잡음 추가 등 세 가지를 적용했다. 복원 전후의 신호‑대‑신호(SNR)와 주관적 청취 테스트(MOS) 결과, DT 기반 재합성은 평균 SNR을 8 dB 이상 향상시켰으며, MOS 점수는 3.2→4.1(5점 만점)으로 크게 개선되었다. 특히, 50 % 이상 샘플이 삭제된 극단적 상황에서도 인간 청취자는 의미 있는 언어 정보를 회복할 수 있었다.

한계점으로는 (①) 화자 종속성: 모델이 특정 화자에 과적합돼 다른 화자에 적용 시 성능이 급격히 저하된다; (②) 실시간 처리 비용: 다중 마스크와 평균화 과정이 계산량을 크게 늘려 실시간 통신에 바로 적용하기엔 아직 부담이 있다; (③) 손상 유형에 대한 일반화: 현재는 무작위 삭제와 백색 잡음에만 최적화돼, 압축 아티팩트나 전송 오류와 같은 복합적 손상에는 추가 연구가 필요하다.

향후 연구 방향은 (1) 화자‑불변 특징을 학습하도록 다화자 데이터와 도메인 적응 기법을 도입; (2) 마스크 수와 크기를 동적으로 조절해 연산량을 최소화하는 경량화 전략; (3) 주파수‑도메인 정보와 결합한 하이브리드 DT를 설계해 다양한 오류 유형에 대한 복원 능력을 확장하는 것이다.

초록

상세 요약

📜 논문 원문 (영문)