스트리밍 인간 동작 생성을 위한 맞춤형 확산 포싱 FloodDiffusion
초록
FloodDiffusion은 시간에 따라 변하는 텍스트 프롬프트를 실시간으로 받아, 저지연으로 부드럽고 텍스트에 정렬된 인간 동작을 연속적으로 생성하는 프레임워크이다. 기존의 청크‑단위 확산이나 오토레그레시브 방식과 달리, 확산 포싱(diffusion forcing) 개념을 차용하고, (1) 양방향 어텐션, (2) 하삼각형 시간 스케줄, (3) 연속적인 텍스트 조건화라는 세 가지 핵심 수정점을 도입해 실제 동작 분포를 정확히 모델링한다. HumanML3D 벤치마크에서 FID 0.057을 달성하며, 스트리밍 환경에서도 비스트리밍 최신 모델에 필적하는 품질을 보여준다.
상세 분석
FloodDiffusion은 “스트리밍”이라는 제약 하에 인간 동작을 생성하기 위해 기존 확산 모델의 한계를 정밀히 분석하고, 이를 해결하기 위한 수학적·공학적 설계를 제시한다. 첫 번째 핵심은 양방향 어텐션이다. 스트리밍 상황에서는 현재 프레임이 아직 완전히 denoise되지 않은 상태에서도 미래 텍스트 프롬프트가 이미 들어오므로, 순수한 causal mask를 사용하면 최신 텍스트 정보를 충분히 활용하지 못한다. 따라서 모델은 현재 활성 윈도우 내 모든 프레임이 서로를 바라볼 수 있게 하는 bidirectional self‑attention을 적용한다. 이는 텍스트‑동작 정렬을 강화하고, 프롬프트 전환 시 급격한 움직임 변화를 완화한다.
두 번째 핵심은 하삼각형(time‑triangular) 스케줄이다. 기존 확산 포싱은 각 프레임에 무작위 타임스텝을 할당해 학습·추론 간 스케줄 불일치를 초래한다. 저자들은 αₖ(t)=clamp(t−k·ns,0,1), βₖ(t)=1−αₖ(t) 형태의 벡터화된 스케줄을 정의해, 시간 t에서 k번째 프레임은 k·ns 만큼 지연된 “노이즈 → 데이터” 전이만을 겪는다. 이로써 활성 윈도우
댓글 및 학술 토론
Loading comments...
의견 남기기