두 단계 자기지도 학습으로 구현한 고효율 음성 표현 및 압축 프레임워크
📝 Abstract
We introduce a two-stage self-supervised framework that combines the Joint-Embedding Predictive Architecture (JEPA) with a Density Adaptive Attention Mechanism (DAAM) for learning robust speech representations. Stage 1 uses JEPA with DAAM to learn semantic audio features via masked prediction in latent space, fully decoupled from waveform reconstruction. Stage 2 leverages these representations for efficient tokenization using Finite Scalar Quantization (FSQ) and a mixed-radix packing scheme, followed by high-fidelity waveform reconstruction with a HiFi-GAN decoder. By integrating Gaussian mixturebased density-adaptive gating into the JEPA encoder, the model performs adaptive temporal feature selection and discovers hierarchical speech structure at a low frame rate of 2.5 Hz. The resulting tokens (47.5 tokens/sec) provide a reversible, highly compressed, and language-model-friendly representation that is competitive with, and often more efficient than, existing neural audio codecs.
💡 Analysis
본 논문은 음성 신호를 효율적으로 인코딩하고 복원하기 위한 새로운 두 단계 자기지도 학습 파이프라인을 제시한다. 첫 번째 단계는 JEPA라는 최신 자기지도 학습 구조에 Density Adaptive Attention Mechanism(DAAM)을 결합한다는 점에서 혁신적이다. JEPA는 입력 신호를 두 개의 뷰(view)로 나누어 하나를 예측하도록 학습함으로써 의미론적 표현을 추출한다. 여기서 DAAM은 가우시안 혼합 모델(GMM)을 기반으로 각 시간 프레임의 특징 밀도에 따라 어텐션 가중치를 동적으로 조정한다. 즉, 복잡한 음성 구간에서는 더 많은 정보를 할당하고, 정적이거나 침묵 구간에서는 어텐션을 억제함으로써 연산 효율성을 크게 높인다. 이러한 밀도 적응형 게이팅은 전통적인 고정 윈도우 어텐션이 갖는 과도한 연산 비용과 불필요한 잡음 증폭 문제를 완화한다.
두 번째 단계에서는 1단계에서 얻은 고차원 잠재 표현을 Finite Scalar Quantization(FSQ)과 혼합 진법(packed radix) 방식을 통해 토큰화한다. FSQ는 연속적인 스칼라 값을 미리 정의된 코드북에 매핑함으로써 양자화 오류를 최소화하고, 혼합 진법 패킹은 서로 다른 비트폭을 가진 토큰들을 하나의 스트림으로 압축 저장한다. 결과적으로 초당 47.5개의 토큰, 즉 2.5 Hz × 19개의 토큰이 생성되며, 이는 기존 100 Hz 이상 프레임 레이트를 사용하는 신경 코덱에 비해 40배 이상 압축된 수치이다.
복원 단계에서는 HiFi‑GAN 디코더를 활용한다. HiFi‑GAN은 고해상도 오디오 합성에 특화된 GAN 기반 모델로, 토큰 시퀀스로부터 원본 파형을 고음질로 재생성한다. 토큰화와 복원 과정이 완전히 가역적이므로, 압축된 토큰을 직접 언어 모델에 입력해 텍스트 생성이나 음성 인식에 활용할 수 있다. 이는 기존의 오디오 코덱이 제공하는 “압축‑복원” 사이클을 넘어, “압축‑직접 활용‑복원”이라는 새로운 활용 패러다임을 제시한다.
성능 평가에서는 동일 비트레이트 조건에서 기존 신경 오디오 코덱 대비 PESQ·STOI·MOS 점수가 동등하거나 우수함을 보였으며, 특히 저프레임 레이트(2.5 Hz)에서도 음성의 계층적 구조(음소, 음절, 단어)를 효과적으로 포착한다는 점이 주목할 만하다. 다만, 가우시안 혼합 기반 어텐션 게이팅이 학습 초기에 불안정할 수 있으며, 대규모 다국어 데이터셋에 대한 일반화 검증이 추가로 필요하다. 향후 연구에서는 DAAM을 Transformer‑ 기반 대규모 사전학습 모델에 통합하고, 실시간 스트리밍 환경에서의 지연(latency) 최소화 방안을 모색할 수 있다.
📄 Content
[두 단계 자기지도 학습을 통한 고효율 음성 표현 및 압축 프레임워크] 전문 번역
본 논문은 두 단계 자기지도 학습 프레임워크를 소개하며, 이를 통해 고효율의 음성 표현 및 압축을 달성한다. 이 접근 방식은 표현 학습과 재구성 사이의 분리를 통해 로컬한 음성 표현을 학습하는 것을 목표로 한다.
1단계: JEPA와 DAAM을 결합한 자기지도 학습
첫 번째 단계는 Joint-Embedding Predictive Architecture (JEPA) [Assran et al., 2023]에 Density Adaptive Attention Mechanisms (DAAM) [Ioannides et al., 2024]를 결합하여 마스킹 예측을 통해 강력한 음성 표현을 학습하는 것이다.
- JEPA: 음성 신호를 마스킹하고 예측하는 방식으로 표현을 학습한다.
- DAAM: 가우시안 혼합 모델을 사용하여 시간적 영역에서 적응적인 주의 게이트를 계산함으로써 JEPA에 추가로 표현의 품질을 향상시킨다.
2단계: 효율적인 토큰화 및 재구성
1단계에서 학습된 표현은 Finite Scalar Quantization (FSQ) [Mentzer et al., 2023]을 사용하여 효율적인 토큰화로 변환된다. 그 후, HiFi-GAN [Kong et al., 2020]을 통해 음성 신호로 재구성된다.
- FSQ: 고정된 스칼라 양자화를 사용하여 표현을 압축하고 역변환이 가능하다.
- HiFi-GAN: 고품질의 음성 신호를 생성하기 위한 생성적 적대 신경망 (GAN) 기반의 재구성 모델이다.
핵심 혁신
- DAAM 게이트 통합: DAAM은 JEPA 인코더에 적응적인 특징 선택을 가능하게 하여 표현 학습 동안 중요한 시간적 패턴을 강조한다.
- 혼합-라디스 팩킹: FSQ의 효율성을 극대화하기 위해 다양한 라디스의 조합으로 토큰을 압축하는 알고리즘이다.
- 두 단계 학습: 표현 학습과 재구성 사이의 분리는 순수 자기지도 학습에 이어 재구성 중심의 미세 조정을 가능하게 한다.
실험 결과
제안된 프레임워크는 다양한 음성 데이터셋에서 우수한 성능을 보여주며, 기존 방법보다 더 높은 효율성과 품질을 달성한다. 또한, DAAM은 JEPA의 표현 능력을 향상시켜 음성 표현 및 압축에 대한 강력한 솔루션을 제공한다.
결론
본 논문은 두 단계 자기지도 학습 프레임워크를 통해 고효율의 음성 표현 및 압축을 달성하는 새로운 접근 방식을 제시한다. 이 프레임워크는 다양한 응용 분야에서 활용될 수 있는 유망한 연구 방향이다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.