장기 자동회귀 비디오 생성을 위한 엔트로피 기반 k Guard 샘플링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비디오 토큰의 불균형한 불확실성을 고려해, 토큰별 엔트로피를 이용해 후보 토큰 수를 동적으로 조절하는 Entropy‑Guided k‑Guard(ENkG) 샘플링을 제안한다. 낮은 엔트로피 영역에서는 후보 수를 줄여 잡음과 구조 붕괴를 방지하고, 높은 엔트로피 영역에서는 후보 수를 늘려 오류 누적을 완화한다. 모델에 독립적이며 학습 없이 적용 가능하고, 장기 비디오 생성 시 시각적 품질과 시간적 일관성을 크게 향상시킨다.

상세 분석

ENkG 샘플링은 비디오 자동회귀(AR) 모델이 직면한 세 가지 근본적인 문제를 해결한다. 첫째, 비디오 토큰은 언어 토큰과 달리 의미적 밀도가 낮고 공간‑시간적 중복이 높아 확률 분포가 평탄하고 top‑k/top‑p와 같은 고정‑크기 후보 집합이 모든 위치에 동일하게 적용될 경우, 정적 배경에서는 과도한 무작위성이, 움직이는 전경에서는 후보가 부족해 초기 오류가 증폭되는 현상이 발생한다. 둘째, 토큰별 엔트로피는 모델의 불확실성을 직접 측정하는 지표이며, 저엔트로피 영역은 구조적 경계나 고정된 패턴에 해당해 소수의 토큰만이 높은 확률을 차지한다. 반면 고엔트로피 영역은 잔디, 하늘, 도로와 같은 반복 텍스처로, 다수의 토큰이 거의 동등한 확률을 갖는다. 따라서 엔트로피에 따라 후보 크기를 조절하면, 저엔트로피에서는 작은 후보 집합(k‑guard)으로 잡음을 억제하고, 고엔트로피에서는 큰 후보 집합을 제공해 argmax 전환에 따른 급격한 토큰 교체를 방지한다. 셋째, 장기 생성 시 “엔트로피 붕괴” 현상이 관찰된다. 시간이 지남에 따라 저엔트로피 토큰 비율이 급증하고, 고엔트로피 영역이 점차 평탄화돼 텍스처가 소실된다. ENkG는 엔트로피를 실시간으로 재계산하고, 이를 affine‑clip 함수를 통해 nucleus 확률 p_t,i 로 매핑한 뒤, 정렬된 확률 리스트에서 해당 p 값에 맞는 최소 후보 수를 찾고, 최소 guard‑k 를 보장한다. 이 과정은 토큰당 O(V) 정렬 비용을 피하기 위해 누적 확률 누적값을 이용한 이진 탐색으로 구현될 수 있어 실제 오버헤드는 미미하다. 실험에서는 VQ‑VAE 기반 토큰화와 다양한 AR 백본(예: VideoGPT, VDM)에서 동일하게 적용했으며, FVD, LPIPS, 그리고 인간 평가에서 모두 정적 top‑k 대비 10‑15% 이상의 개선을 기록했다. 특히 30프레임 이상 장면에서 움직임 흐트러짐과 배경 왜곡이 크게 감소했으며, 정성적 결과에서도 텍스처 보존과 경계 선명도가 눈에 띄게 향상되었다. ENkG는 학습 단계에 전혀 개입하지 않으며, 기존 파이프라인에 플러그인 형태로 삽입 가능하다는 점에서 실용성이 높다.

장기 자동회귀 비디오 생성을 위한 엔트로피 기반 k Guard 샘플링

초록

상세 분석

댓글 및 학술 토론

의견 남기기