단일채널 신호 분리와 디컨볼루션을 위한 GAN 기반 합성‑분해 접근법

본 논문은 단일채널 혼합 신호에서 원본 소스와 컨볼루션 필터를 동시에 추정하기 위해, GAN으로 소스의 사전 분포를 학습하고 이를 이용해 혼합 신호를 재구성하는 합성‑분해(S‑D) 프레임워크를 제안한다. MAP 기반 최적화와 반복 초기화 전략을 통해 비선형 비볼록 문제를 해결하고, MNIST 이미지 실험에서 기존 CNN 및 NMF 기반 방법보다 높은 PSNR을 달성하였다.

저자: Qiuqiang Kong, Yong Xu, Wenwu Wang

단일채널 신호 분리와 디컨볼루션을 위한 GAN 기반 합성‑분해 접근법
본 논문은 단일채널 혼합 신호에서 개별 소스와 그에 적용된 컨볼루션 필터를 동시에 복원하는 새로운 방법론을 제시한다. 전통적인 신호 분리와 디컨볼루션 문제는 두 가지 주요 제약으로 인해 어려움을 겪는다. 첫째, 단일채널만 존재하므로 문제는 본질적으로 과소결정(underdetermined)이며, 두 번째로 혼합 필터와 잡음에 대한 사전 정보가 전혀 주어지지 않는다. 기존 연구는 크게 두 갈래로 나뉜다. 하나는 NMF·ICA와 같은 선형 기반 분해 방법으로, 소스가 선형 결합된 베이스 집합으로 표현된다고 가정한다. 이러한 방법은 구현이 간단하고 해석이 용이하지만, 복잡하고 비선형적인 소스 구조를 충분히 포착하지 못한다. 다른 하나는 CNN·DAE와 같은 회귀 기반 딥러닝 방법으로, 혼합 신호를 직접 목표 소스로 매핑한다. 회귀 기반 방법은 표현력이 뛰어나지만, 학습 데이터와 테스트 데이터의 분포 차이(특히 보이지 않는 비정상 잡음)와 혼합 필터를 추정할 수 없다는 근본적인 한계가 있다. 이러한 문제점을 해결하기 위해 저자들은 ‘합성‑분해(S‑D)’라는 두 단계 접근법을 고안했다. 첫 단계인 ‘합성’에서는 GAN, 구체적으로 DCGAN을 이용해 소스 이미지의 잠재 분포를 학습한다. 생성기 G는 100차원의 가우시안 잡음 z를 입력받아 실제 데이터와 구분이 어려운 이미지를 생성하도록 훈련된다. 이는 소스가 실제 데이터 공간에 존재한다는 강력한 사전(prior) 역할을 수행한다. 두 번째 단계인 ‘분해’에서는 학습된 G를 고정하고, 혼합 신호 x와의 재구성 오차를 최소화하도록 각 소스의 잠재 변수 z_k와 컨볼루션 필터 α_k를 동시에 최적화한다. 이 과정은 베이즈적 MAP 추정으로 모델링되며, likelihood는 가우시안 잡음 가정 하에 정의되고, α_k에 대해서는 가우시안 prior를 부여해 정규화 항 β를 도입한다. 최적화는 Adam 기반 gradient descent로 수행되며, 비볼록성으로 인한 지역 최소 문제를 완화하기 위해 여러 번 무작위 초기화 후 최적 결과를 선택한다. 수식적으로는 원본 혼합 신호를 x(u)=∑_{k=1}^K (α_k * s_k)(u)+n(u) 로 정의하고, θ={s_k,α_k} 를 MAP 추정한다. 사전 p(θ)=∏_k p(α_k)·p(s_k) 로 가정하고, p(s_k)는 GAN이 생성한 이미지가 속하는 집합 V에 대해 균일 분포로 근사한다. 최종 최적화 문제는 ‖x−∑_k α_k * G(z_k)‖_2^2 + β∑_k‖α_k‖_2^2 를 최소화하는 형태가 된다. 실험은 MNIST 10‑digit 데이터셋을 사용해 이미지 디노이징, 인페인팅, 컴플리션, 디컨볼루션, 그리고 소스 분리·디컨볼루션 5가지 태스크를 수행하였다. 비교 대상으로는 동일 구조를 가진 CNN(회귀 기반)과 20개의 베이스를 갖는 NMF(분해 기반)를 사용하였다. 평가 지표는 PSNR이며, S‑D는 인페인팅에서 18.9 dB, 컴플리션에서 15.4 dB, 소스 분리·디컨볼루션에서 13.2 dB를 기록해 각각 CNN(15.3 dB, 12.2 dB, 10.1 dB)보다 크게 앞섰다. 특히 비정상 잡음이 포함된 테스트에서도 성능 저하가 미미했으며, 이는 GAN 기반 사전이 잡음에 대한 일반화 능력을 제공함을 의미한다. 하지만 현재 연구는 제한된 실험 환경(28×28 흑백 이미지, K=2)에서만 검증되었으며, 고차원 오디오·비디오 신호에 대한 확장성은 아직 입증되지 않았다. 또한 최적화 과정이 초기값에 민감하고 반복 초기화를 필요로 하므로 계산 비용이 비교적 높다. 향후 연구에서는 초기화 전략 개선, 다중 스케일 GAN 도입, 실시간 적용을 위한 경량화 모델 개발, 그리고 다양한 도메인(음성, 영상)으로의 일반화 검증이 필요하다. 결론적으로, 본 논문은 GAN을 이용한 소스 사전 학습과 MAP 기반 공동 최적화를 결합함으로써, 단일채널 혼합 신호에서 소스와 필터를 동시에 복원하는 새로운 패러다임을 제시한다. 이는 기존 회귀 기반 및 선형 분해 기반 방법이 갖는 근본적인 한계를 극복하고, 비정상 잡음 환경에서도 견고한 성능을 보이는 점에서 의미가 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기