실용적인 확산 기반 대형 오디오 언어 모델 DIFFA‑2
초록
DIFFA‑2는 확산 대형 언어 모델(dLLM)을 오디오 이해에 적용한 새로운 프레임워크로, 강화된 음성 인코더와 이중 어댑터(시맨틱·음향) 구조를 도입하고 4단계 학습 커리큘럼(시맨틱 정렬 → 시맨틱·음향 공동 정렬 → LoRA 기반 백본 파인튜닝 → 변동 감소 선호 최적화)을 통해 제한된 데이터와 연산 자원에서도 AR 기반 모델에 필적하거나 능가하는 성능을 달성한다. factor‑based parallel decoding을 활용해 추론 속도도 크게 개선하였다.
상세 분석
DIFFA‑2는 기존 AR(LALM) 방식의 한계를 극복하기 위해 확산 기반 언어 모델(LLaDA)을 오디오‑텍스트 멀티모달 학습에 적용하였다. 핵심 설계는 세 가지로 요약할 수 있다. 첫째, 음성 인코더 업그레이드이다. 논문은 Whisper‑Large‑V3를 고정(frozen) 상태로 사용하면서, 시맨틱 어댑터와 음향 어댑터를 별도로 두어 서로 보완적인 정보를 백본에 전달한다. 시맨틱 어댑터는 2‑layer convolution‑subsampling 뒤 2‑layer linear projection으로 시간 해상도를 50 Hz → 12.5 Hz로 낮추어 텍스트 토큰과 정렬한다. 음향 어댑터는 2‑layer Q‑former 구조에 64개의 학습 가능한 query를 두어 중간 인코더 상태에 어텐션을 수행, 억양·감정·배경음 등 비언어적 특성을 압축한다. 이렇게 두 스트림을 동시에 제공함으로써, 확산 백본이 양방향 컨텍스트와 음향‑시맨틱 상호작용을 동시에 학습하도록 설계했다.
둘째, 4단계 진행형 커리큘럼이다.
- Stage 1에서는 백본을 고정하고 시맨틱 어댑터만 ASR 데이터(LibriSpeech, GigaSpeech)를 이용해 마스크‑예측 손실로 학습한다. 이는 텍스트 의미 공간과의 정렬을 목표로 하며, 이후 단계에서 백본이 활용할 수 있는 안정된 시맨틱 표현을 만든다.
- Stage 2에서는 음향 어댑터를 추가해 합성된 SFT 데이터(캡션‑기반 QA, TTS‑변환 QA, 멀티‑choice QA, ASR 서브셋)와 함께 시맨틱·음향 어댑터를 공동 학습한다. 여기서 데이터는 음성·환경음·음악 등 다양한 도메인을 포괄하고, LLaDA의 마스크‑예측 손실을 그대로 적용한다.
- Stage 3에서는 LoRA(저차원 적응) 기법을 도입해 확산 백본 자체를 파인튜닝한다. LoRA는 전체 파라미터의 약 1 %만 업데이트하면서도 백본이 멀티모달 교차 정보를 효과적으로 통합하도록 만든다.
- Stage 4는 VRPO(Variance‑Reduced Preference Optimization) 단계다. 선호 트리플렛(정답, 거부 답변) 데이터를 이용해 DPO‑형식 목표를 최적화하지만, Monte‑Carlo ELBO 추정의 분산을 감소시키기 위해 동일 마스크 패턴을 공유하는 안티테틱 샘플링을 적용한다. 이는 긴 오디오 시퀀스에서도 안정적인 학습을 가능하게 한다.
셋째, 실용적인 추론이다. 확산 모델은 기본적으로 반복적인 마스킹‑디노이징 과정을 필요로 하지만, 논문은 factor‑based parallel decoding(빠른‑dLLM) 기법을 도입해 각 디코딩 단계에서 토큰을 블록 단위로 병렬 예측하고, 낮은 신뢰도 토큰만 재마스크한다. 이를 통해 전체 T = 1216 단계의 디노이징을 23배 가속화하면서도 품질 저하를 최소화한다.
실험 결과는 MMSU, MMAU, MMAR 세 벤치마크에서 DIFFA‑2가 기존 DIFFA‑1보다 평균 4~6 %p 상승했으며, 8 B 파라미터 모델임에도 Qwen‑3‑Omni(30 B)와 같은 대형 AR 모델에 근접하거나 일부 영역에서 앞선 성능을 보였다. 특히 음향·패러링귀스틱 영역에서의 점수가 크게 개선돼, 확산 기반 백본이 비언어적 오디오 정보를 효과적으로 학습할 수 있음을 입증한다.
요약하면, DIFFA‑2는 (1) 이중 어댑터를 통한 시맨틱·음향 특성의 명시적 분리, (2) 단계별 커리큘럼을 통한 데이터 효율성 극대화, (3) LoRA와 VRPO를 결합한 파인튜닝 전략, (4) factor‑based parallel decoding을 통한 실시간 추론 가능성을 모두 갖춘 최초의 실용적 확산 기반 대형 오디오 언어 모델이다.
댓글 및 학술 토론
Loading comments...
의견 남기기