음향 연장·모핑을 위한 마스크 라티엔트 디퓨전 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 Diffusion Transformer(DiT)의 라티엔트를 마스킹하고, 새로운 Classifier‑Free Guidance 변형인 Audio Prompt Guidance(APG)를 적용해(1) 단일 오디오를 앞·뒤로 연장하고, (2) 두 오디오를 자연스럽게 모핑하는 방법을 제시한다. 정지음향 데이터로 파인‑튜닝해 환각을 억제하고, Fréchet Audio Distance와 청취자 설문을 통해 실제 데이터와 동등한 품질을 입증한다.

상세 분석

**
이 연구는 기존 디퓨전 기반 오디오 생성 모델이 “전역적인” 라티엔트를 사용해 전체 샘플을 한 번에 복원한다는 한계를 극복하고자, 라티엔트를 시간축에 따라 마스크하는 방식을 도입한다. 구체적으로, Gaussian Noise z₍G₎ ∈ ℝⁿˣᵈ_z 를 DiT에 입력하고, f_M(z_G, z) 라는 마스킹 함수로 앞·뒤 혹은 양쪽 끝에 해당하는 라티엔트 구간을 교체한다. 이렇게 하면 원본 프롬프트 라티엔트가 보존되는 동시에, 마스크된 구간만 디퓨전 과정을 거쳐 새로운 오디오 컨텐츠가 생성된다.

핵심 기여 중 하나인 Audio Prompt Guidance(APG)는 기존의 Classifier‑Free Guidance(CFG)와 동일한 수식 구조를 유지하되, “프롬프트 라티엔트”와 “노이즈 라티엔트” 사이의 차이를 가중치 γ 로 조절한다.
z′ = f_θ(z_G) + γ ·

음향 연장·모핑을 위한 마스크 라티엔트 디퓨전 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기