한 단계 비디오 복원 SeedVR2

한 단계 비디오 복원 SeedVR2
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SeedVR2는 고해상도 비디오 복원을 한 번의 전방 패스로 수행하도록 설계된 확산 기반 모델이다. 적응형 윈도우 어텐션과 진행형 디스틸레이션, 그리고 특징 매칭 손실을 포함한 다중 손실 설계로 학습 안정성을 확보하고, 대규모 GAN 구조에도 불구하고 4배 이상의 추론 속도를 달성한다. 실험 결과, 기존 다단계 확산 모델과 동등하거나 더 나은 복원 품질을 보이며, 특히 1080p 이상의 실시간 시나리오에 적합하다.

상세 분석

SeedVR2는 기존 확산 기반 비디오 복원 모델이 수십 단계에 걸쳐 샘플링해야 하는 한계를 극복하고, 단일 단계(One‑Step)에서 고품질 복원을 가능하게 한다. 핵심 기술은 세 가지 축으로 정리할 수 있다. 첫째, 적응형 윈도우 어텐션이다. 기존 Swin‑MMDIT 구조는 고정된 윈도우 크기를 사용했지만, 해상도가 2K 이상으로 증가하면 윈도우 경계에서 눈에 띄는 아티팩트가 발생한다. SeedVR2는 입력 영상의 시간·높이·폭 차원에 따라 윈도우 수(n_t, n_h, n_w)를 동적으로 계산하고, 최소(시간 차원,30)으로 상한을 두어 학습·추론 시 시퀀스 길이 불일치를 방지한다. 또한 테스트 시에는 훈련 해상도와 동일한 면적을 유지하도록 비율을 맞춘 공간 프록시 해상도를 도입해, 윈도우 파티셔닝을 일관되게 적용한다. 이 설계는 다양한 해상도와 종횡비를 가진 실세계 비디오에 대해 경계 아티팩트를 크게 감소시킨다.

둘째, 진행형 디스틸레이션과 적대적 포스트‑트레이닝(APT) 결합이다. SeedVR2는 사전 학습된 대규모 확산 트랜스포머인 SeedVR을 초기 가중치로 사용하고, 먼저 일정 단계의 디스틸레이션을 수행해 기본 복원 능력을 유지한다. 이후 전체 네트워크를 실제 고품질 비디오 데이터에 대해 적대적 학습한다. 여기서 사용된 RpGAN과 근사 R1 정규화는 대규모 생성기·판별기 구조에서도 학습 발산을 억제한다.

셋째, 손실 함수의 혁신이다. 고해상도 비디오에서는 픽셀‑레벨 LPIPS 계산이 메모리·시간 비용이 과다해 실용적이지 않다. 대신 판별기의 여러 레이어에서 추출한 특징 맵 간 L2 거리를 최소화하는 특징 매칭 손실을 도입했다. 이는 LPIPS와 유사한 인지적 품질을 유지하면서 연산 효율성을 크게 높인다. 또한 L1 손실과 기존의 비전 감각 손실을 보완적으로 사용해 왜곡‑인식 트레이드오프를 최적화한다.

전체 모델은 약 16 B 파라미터(생성기 + 판별기) 규모이며, 1080p 입력에 대해 단일 전방 패스로 복원을 수행한다. 실험에서는 기존 50‑step 확산 기반 VR 모델 대비 4배 이상 빠른 추론 속도를 보였으며, PSNR/SSIM 및 인간 평가 지표에서 동등하거나 우수한 성능을 기록했다. 특히 고해상도·복잡한 텍스처 복원에서 경계 아티팩트가 현저히 감소하고, 세밀한 디테일이 잘 보존되는 것이 눈에 띈다. 이러한 결과는 적응형 윈도우 어텐션과 손실 설계가 고해상도 비디오 복원에 필수적인 요소임을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기