주의 잠금 시점 제어 훈련‑무료 KV 기반 비디오 디퓨전
초록
본 논문은 DiT 기반 비디오 디퓨전 모델에서 배경 일관성을 유지하면서 전경 품질을 향상시키기 위한 훈련‑무료 프레임워크 KV‑Lock을 제안한다. 핵심 아이디어는 디퓨전 과정에서 예측된 클린 샘플의 분산(홀루시네이션 메트릭)이 생성 다양성과 직접 연결된다는 점을 이용해, 실시간으로 배경 KV 캐시와 클래스프리 가이드(CFG) 스케일을 동적으로 조절한다는 것이다. hallucination 위험이 감지되면 배경 KV 잠금을 강화하고 CFG 스케일을 높여 전경을 강하게 조건화함으로써 배경 왜곡을 방지하고 전경 품질을 개선한다. KV‑Lock은 사전 학습된 DiT 모델에 플러그‑인 형태로 적용 가능하며, 다양한 비디오 편집 작업에서 기존 방법보다 우수한 성능을 보인다.
상세 분석
KV‑Lock은 비디오 디퓨전 모델의 두 가지 핵심 메커니즘, 즉 키‑밸류(KV) 캐시와 클래스프리 가이드(CFG)를 상호 보완적으로 활용한다. 먼저, 논문은 “홀루시네이션 메트릭”을 정의한다. 이는 일정 구간의 타임스텝에서 예측된 클린 샘플 ˆx₀의 분산을 평균과 비교해 계산되며, 높은 분산은 모델이 데이터 분포의 저확률 영역을 탐색하고 있음을 의미한다. 기존 연구에서 이 분산이 샘플 다양성, 즉 CFG 스케일과 정량적으로 연관된다는 점을 발견했으며, 이를 기반으로 실시간 위험 판단 기준을 마련한다.
배경 영역에 대해서는 원본 비디오의 KV 쌍을 캐시하고, 편집 과정에서 해당 토큰에 대해 Q는 자유롭게 변하지만 K와 V는 고정한다. 이렇게 하면 attention 연산이 원본 콘텐츠에 강하게 고정되어 배경이 원본 그대로 재구성된다. 그러나 KV를 무조건 고정하면 전경 생성에 필요한 자유도가 감소해 “홀루시네이션”이 발생한다. KV‑Lock은 이를 해결하기 위해 타임스텝별로 동적 융합 비율 αₖ를 도입한다. αₖ는 현재 타임스텝의 분산 σ²ₖ를 기준으로 clamp(σ²ₖ/τ,0,1) 형태로 계산되며, τ는 경험적으로 설정된 임계값이다. 분산이 낮을 때는 αₖ가 작아 배경 KV의 영향이 감소하고, 분산이 높아 위험이 감지될 때는 αₖ가 1에 가까워져 배경을 강하게 고정한다.
동시에 CFG 스케일도 동일한 분산 신호에 따라 조절된다. 분산이 클수록 CFG를 상승시켜 조건 프롬프트에 대한 모델의 민감도를 높이고, 전경이 목표 속성(색상, 포즈 등)을 정확히 반영하도록 유도한다. 이렇게 두 파라미터를 동시에 조정함으로써 “언제 주의를 잠그고 언제 풀어야 하는가”라는 질문을 정량적, 자동화된 방식으로 해결한다.
기술적인 구현 측면에서 KV‑Lock은 기존 DiT 모델의 구조를 거의 변경하지 않는다. 원본 비디오를 3D VAE로 인코딩하고, 마스크를 토큰 레벨로 투사한 뒤, 각 디노이징 타임스텝에서 원본의 KV를 추출해 백그라운드 토큰에만 삽입한다. 이후 디노이징 단계에서 동적 αₖ와 CFG 스케일을 적용해 새로운 KV와 캐시된 KV를 선형 결합한다. 이 과정은 전혀 추가 학습이 필요 없으며, 플러그‑인 형태로 기존 파이프라인에 바로 삽입할 수 있다.
실험에서는 KV‑Lock을 VACE, ProEdit 등 기존 최첨단 방법들과 비교했으며, 정량적 지표(FVD, CLIP‑Score, PSNR)와 정성적 시각 평가 모두에서 배경 보존율과 전경 품질이 크게 향상된 것을 확인했다. 특히 복잡한 색상 변환이나 자세 변형이 요구되는 시나리오에서 CFG 스케일을 동적으로 상승시킨 덕분에 전경이 목표 프롬프트에 더 정확히 맞춰졌으며, 동시에 배경은 거의 변형되지 않았다.
한계점으로는 현재 분산 기반 판단이 타임스텝 구간 선택에 민감하고, τ 값의 설정이 데이터셋마다 다소 차이를 보일 수 있다는 점이다. 또한 KV‑Lock은 DiT와 같은 트랜스포머 기반 모델에 특화돼 있어, CNN 기반 비디오 디퓨전 모델에는 직접 적용하기 어려울 수 있다. 향후 연구에서는 분산 외에 다른 불확실성 지표(예: 엔트로피)와 결합하거나, 멀티‑스케일 KV 캐시 전략을 도입해 더욱 정교한 제어를 모색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기