텍스트 오디오 확산 모델의 데이터 복제 방지와 반기억 가이드 적용
초록
본 논문은 텍스트‑오디오 확산 모델에서 훈련 데이터 복제를 완화하기 위해 Anti‑Memorization Guidance(AMG)를 도입한다. AMG는 샘플링 단계에서 세 가지 가이드를 결합해 기억된 오디오와의 유사성을 감소시키며, Stable Audio Open을 백본으로 실험하였다. 실험 결과, AMG 적용 시 기억된 샘플과의 코사인 유사도가 크게 낮아짐과 동시에 오디오 품질과 프롬프트 일치도는 유지됨을 확인하였다.
상세 분석
이 연구는 최근 급부상한 텍스트‑오디오 생성 확산 모델이 훈련 데이터의 일부를 그대로 재생성하는 ‘데이터 복제’ 문제를 해결하고자 한다. 기존 이미지 분야에서 제안된 Anti‑Memorization Guidance(AMG)를 오디오 라티스 확산 모델에 맞게 변형했으며, 세 가지 구체적인 가이드를 설계하였다. 첫 번째인 ‘디스페시피케이션 가이드(g_spe)’는 과도하게 구체적인 프롬프트가 기억된 샘플을 키로 작동하는 현상을 억제한다. 이는 조건부 예측과 무조건부 예측의 차이를 역방향 노이즈에 부정적인 스케일로 더함으로써 프롬프트의 영향력을 동적으로 감소시킨다. 두 번째인 ‘캡션 디듀플리케이션 가이드(g_dup)’는 훈련 데이터 내 중복된 캡션을 식별하고, 해당 캡션을 부정 프롬프트로 사용해 기억된 오디오와의 유사성을 낮춘다. 세 번째인 ‘디스시미러리티 가이드(g_sim)’는 현재 생성된 오디오와 가장 유사한 훈련 샘플 간 코사인 유사도에 대한 그래디언트를 직접 최소화함으로써 기억된 특성을 물리적으로 멀리한다. 이 세 가이드는 모두 유사도 임계값 λ_t를 초과할 때만 활성화되며, 각 단계에서 노이즈 ϵ̂에 합산되어 역전파 과정에 반영된다.
실험에서는 Stable Audio Open 모델과 공개된 6,000개 트랙(프리사운드·FMA) 데이터셋을 사용하였다. 데이터셋을 클러스터링해 기억 가능성이 높은 60개 샘플을 선정하고, 100 단계 디노이징, CFG 스케일 7, λ_t를 0.4~0.5 구간의 포물선 형태로 설정하였다. 평가 지표는 CLAP와 MER‑T 임베딩 기반 코사인 유사도, CLAPScore(프롬프트 일치도), Fréchet Audio Distance, Kernel Audio Distance, MAE 등이다. 결과는 가이드별 및 조합별 성능을 보여준다. 특히 디스시미러리티 가이드(g_sim)는 단독 적용 시 평균 유사도를 0.69에서 0.41로 크게 낮추었으며, 모든 가이드를 결합한 Full AMG는 0.40까지 감소시켰다. 반면 디스페시피케이션 가이드는 단독 효과가 미미했으며, 캡션 디듀플리케이션 가이드는 소폭 개선에 그쳤다. 품질 측면에서는 FAD와 KAD가 약간 개선되었고, 프롬프트 일치도는 약간 감소했지만 여전히 높은 수준을 유지했다. 시각적 분석(스펙트로그램, 구조적 유사도 매트릭스, t‑SNE)에서도 AMG 적용 샘플이 원본과 멀리 떨어진 클러스터에 위치함을 확인하였다.
이 논문은 확산 기반 텍스트‑오디오 생성에서 기억 현상을 추론 단계에서만 제어함으로써 재훈련 없이도 저작권 침해 위험을 감소시킬 수 있음을 입증한다. 다만 가이드 파라미터(c1, c2, c3)와 λ_t 스케줄에 대한 민감도가 높아 실제 서비스 적용 시 자동 튜닝이 필요하며, 매우 구체적인 프롬프트에서는 여전히 일부 기억이 남을 가능성이 있다. 향후 연구는 보다 정교한 유사도 측정, 멀티모달 캡션 정제, 그리고 실시간 사용자 피드백을 활용한 동적 가이드 조정 방안을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기