적응형 1D 비디오 디퓨전 오토인코더

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

One‑DVA는 쿼리 기반 비전 트랜스포머 인코더와 가변 길이 드롭아웃을 이용해 비디오를 1차원 토큰 시퀀스로 압축하고, 픽셀‑스페이스 디퓨전 트랜스포머 디코더로 복원한다. 두 단계 학습과 잠재 분포 정규화를 통해 기존 3D‑CNN VAE와 동등한 재구성 품질을 유지하면서, 콘텐츠 복잡도에 따라 토큰 수를 동적으로 조절하는 적응형 압축을 가능하게 한다.

상세 분석

One‑DVA는 기존 비디오 오토인코더가 안고 있던 고정 압축률, CNN 기반 구조의 경직성, 그리고 결정론적 디코더의 세 가지 한계를 동시에 해결한다. 인코더는 ViT 백본에 1D 학습 가능한 쿼리를 삽입해 시공간 패치를 토큰화하고, 쿼리‑어텐션을 통해 핵심 시각 정보를 1차원 연속 잠재벡터로 추출한다. 여기서 변수‑길이 드롭아웃 모듈은 토큰 시퀀스의 꼬리를 무작위로 마스킹함으로써 압축률을 동적으로 조절한다. 이 “마트료시카” 방식은 영상 복잡도에 따라 토큰 수를 늘리거나 줄일 수 있게 하여, 단순 영상에서는 토큰을 크게 절감하고 복잡한 영상에서는 충분히 많은 토큰을 유지한다.

디코더는 픽셀‑스페이스 디퓨전 트랜스포머(DiT)를 채택해, 잠재 토큰을 조건으로 삼아 노이즈를 점진적으로 제거하며 원본 영상을 재생성한다. 디퓨전 손실에 더해 퍼셉추얼 손실, KL 정규화, REPA 손실을 결합한 복합 손실 함수를 사용해 시각적 품질과 잠재 분포의 정규성을 동시에 최적화한다. 두 단계 학습 전략—첫 단계에서 인코더를 중심으로 압축 품질을 확보하고, 두 번째 단계에서 가변 길이와 디퓨전 디코더를 통합—은 각각의 모듈이 최적의 역할을 수행하도록 돕는다.

또한, One‑DVA는 잠재 공간을 LDM(잠재 디퓨전 모델)과 직접 연계하기 위해 구조적 잠재와 1D 토큰을 정렬 손실로 매핑한다. 생성 과정에서 발생할 수 있는 아티팩트를 완화하기 위해, LDM이 생성한 노이즈 토큰을 사용해 디코더를 추가 미세조정한다. 실험 결과, 동일 압축 비율에서 3D‑CNN 기반 VAE와 비교해 PSNR/SSIM 등 재구성 지표가 거의 동등하거나 약간 우수했으며, 가변 압축을 적용했을 때는 토큰 수를 30‑50%까지 절감하면서도 품질 저하가 미미했다.

핵심 기여는 (1) 1D 가변 길이 인코딩을 통한 적응형 압축, (2) 트랜스포머 기반 쿼리 메커니즘으로 자유로운 입력 형태 처리, (3) 디퓨전 디코더를 활용한 생성‑기반 복원이다. 이 세 요소가 결합돼 비디오 생성 파이프라인에서 효율적인 토큰화와 고품질 복원을 동시에 제공한다는 점이 가장 큰 의의이다.

적응형 1D 비디오 디퓨전 오토인코더

초록

상세 분석

댓글 및 학술 토론

의견 남기기