동적 이벤트 그래프와 디퓨전 트랜스포머가 만든 정밀 텍스트‑오디오 제어 시스템
초록
DegDiT는 텍스트 설명에 포함된 사건들을 동적 이벤트 그래프로 변환하고, 그래프 트랜스포머로 컨텍스트화된 임베딩을 만든 뒤, 이를 디퓨전 트랜스포머에 가이드로 제공함으로써 이벤트 종류·시작·종료 시점·순서를 정확히 제어할 수 있는 오픈‑보카블 텍스트‑투‑오디오 모델이다. 품질‑균형 데이터 선택 파이프라인과 다중 보상 신호를 통합한 Consensus Preference Optimization을 도입해 데이터 다양성과 생성 품질을 동시에 향상시켰으며, AudioCondition, DESED, AudioTime에서 최첨단 성능을 기록했다.
상세 분석
DegDiT의 핵심 아이디어는 “동적 이벤트 그래프”이다. 텍스트 프롬프트에서 추출된 각 사운드 이벤트는 (카테고리, 시작시간, 종료시간, 강도)라는 4‑tuple 로 정의되고, 이들 간의 시간 관계(앞선, 뒤따른, 겹침, 포함, 포함‑역) 를 5‑차원 인접 텐서로 표현한다. 이렇게 구성된 노드‑엣지 구조는 그래프 트랜스포머에 입력되어, 자기‑주의 메커니즘을 통해 이벤트 간 상호작용과 전역 컨텍스트를 학습한다.
텍스트 인코더는 FLAN‑T5‑Large를 사용해 카테고리 문자열을 의미론적 임베딩(e_cat)으로 변환하고, 시작·종료 시점을 MLP‑Sinusoid 으로 인코딩한 t_i 와 합산해 초기 노드 임베딩 g⁽⁰⁾_i 를 만든다. 동시에 프레임‑레벨 활성화 행렬 F_i 를 FrameEncoder 로 압축하고 강도 α_i 로 가중해 f_i 를 얻어, 시간 정밀도를 보강한다.
이벤트 임베딩과 관계 임베딩을 그래프 트랜스포머에 통합하면, 각 노드는 주변 이벤트와의 관계 정보를 집계한 r_i 를 받아 최종 컨텍스트 임베딩 g_i 로 업데이트된다. 최종적으로 텍스트 임베딩과 그래프 임베딩을 결합해 디퓨전 트랜스포머의 조건으로 사용한다. 디퓨전 단계는 기존의 텍스트‑전용 가이드와 달리, 시간‑구조화된 그래프 정보를 직접 반영함으로써 타임스탬프 정확도가 크게 향상된다.
데이터 측면에서 저자들은 HTS‑AT 기반 자동 라벨링으로 AudioSet 에서 이벤트 경계와 신뢰도를 추출하고, “이벤트 수·다양성·시간 정렬·길이 타당성” 네 가지 품질 지표를 종합해 품질‑균형 샘플을 선별한다. 이렇게 구축된 데이터셋은 오픈 보카블리티와 다양성을 동시에 확보한다.
학습 후에는 Consensus Preference Optimization (CoPO)를 적용한다. CoPO는 텍스트‑일치, 이벤트‑일치, 시간‑정확도, 오디오‑품질 네 개의 보상 함수를 각각 가중치 학습을 통해 통합하고, 강화학습 기반 선호 모델을 통해 디퓨전 파라미터를 미세조정한다. 이는 단순 이진 선호 학습보다 미세한 품질 차이를 반영할 수 있어, 주관적 청취 평가에서도 높은 점수를 얻는다.
실험 결과 DegDiT는 AudioCondition(텍스트‑오디오 정합도), DESED(다중 이벤트 검출), AudioTime(시간 정밀도)에서 기존 SOTA 모델들을 크게 앞서며, 특히 복잡한 이벤트 순서와 겹침을 포함한 프롬프트에서 타임스탬프 오차가 30% 이상 감소했다. 모델 파라미터와 추론 비용은 기존 Diffusion‑Transformer 기반 모델과 비슷한 수준으로, 실용적인 효율성도 유지한다.
댓글 및 학술 토론
Loading comments...
의견 남기기