초경량 U‑Net을 위한 자동 설계: UL‑UNAS 실시간 음성 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

UL‑UNAS는 네트워크 구조 탐색(NAS)과 효율적인 컨볼루션 블록, 새로운 활성화 함수(APReLU) 및 인과적 시간‑주파수 어텐션(cTFA)을 결합해, 약 30 M MACs·171 k 파라미터 수준의 초경량 U‑Net을 구현한다. VCTK‑DEMAND 테스트에서 PESQ 3.09를 달성하며, 기존 초경량 모델을 크게 앞선다.

상세 분석

본 논문은 실시간 음성 향상 시스템에 필수적인 연산량·지연시간 최소화를 목표로, U‑Net 기반 구조를 자동으로 최적화하는 프레임워크 UL‑UNAS를 제안한다. 첫 번째 단계에서는 기존 초경량 모델(GTCRN)을 백본으로 삼고, 인코더‑디코더(CED) 블록에 적용 가능한 다양한 효율적 컨볼루션 모듈(Depthwise separable, Grouped convolution, Feature‑shuffle, Re‑parameterization, Star‑operation 등)을 체계적으로 평가한다. 실험 결과, 깊이별 분리 컨볼루션과 그룹화‑채널 셔플을 결합한 블록이 가장 높은 성능‑연산 비율을 보였으며, 이를 기본 빌딩 블록으로 채택한다.

두 번째로, 블록의 표현력을 강화하기 위해 두 가지 ‘부스팅’ 기법을 도입한다. 첫 번째는 기존 PReLU에 선형 변환 파라미터(스케일·시프트)를 학습시키는 Affine PReLU(APReLU)이다. 이는 활성화 함수 자체의 비선형성을 유지하면서 입력 분포에 대한 적응성을 제공해, 연산량 증가 없이 성능을 0.1~0.2 dB 수준 끌어올린다. 두 번째는 인과성을 보장하는 인-시간 주파수 어텐션(cTFA)이다. 기존 TFA는 시간축 평균 풀링으로 비인과성을 초래했으나, cTFA는 시간축을 그대로 유지하고 주파수축에만 어텐션을 적용함으로써 실시간 처리에 적합하면서도 주파수 의존성을 효과적으로 모델링한다.

세 번째 단계는 NAS를 통한 최적 구조 탐색이다. 검색 공간은 위에서 선정한 효율 블록, APReLU, cTFA를 조합한 다중 옵션으로 구성했으며, 목표 함수는 PESQ와 연산량(30 M MACs 이하) 사이의 가중합으로 설계했다. 강화학습 기반 컨트롤러가 후보 아키텍처를 샘플링하고, 각 후보를 짧게 fine‑tune 후 성능을 평가해 보상으로 피드백한다. 탐색 결과, 5개의 인코더‑디코더 단계와 각 단계마다 서로 다른 채널 수·블록 구성을 가진 최적 모델이 도출되었다.

최종 모델 UL‑UNAS는 35 M MACs, 171 k 파라미터로 VCTK‑DEMAND 데이터셋에서 PESQ 3.09, STOI 0.92를 기록한다. 이는 GTCRN(34 M MACs, PESQ 2.84)과 비교해 0.25 PESQ 포인트 향상, 파라미터는 1.2배 감소한 결과다. 또한, 최신 경량 모델(FSPEN, LiSenNet)보다 연산량·지연시간에서 우수하면서도 성능 격차를 최소화한다. 실시간 처리 테스트에서는 10 ms 이하의 인퍼런스 지연을 보이며, 모바일·임베디드 환경에 바로 적용 가능함을 입증한다.

본 연구는 (1) 효율적인 컨볼루션 설계와 새로운 활성화·어텐션 기법의 결합, (2) 연산량을 직접 제약조건으로 포함한 NAS 기반 구조 최적화가 초경량 음성 향상 모델 설계에 강력한 시너지를 만든다는 점을 실증한다. 향후 연구에서는 하드웨어‑특화 NAS(예: DSP, NPU)와 양자화·프루닝을 연계해 1 M MACs 수준까지 압축하는 방향이 기대된다.

초경량 U‑Net을 위한 자동 설계: UL‑UNAS 실시간 음성 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기