동적 객체 일관성을 위한 지역 의미 정렬 기반 비디오 생성 향상
초록
본 논문은 사전 학습된 영상 생성 확산 모델(SVD)을 단일 에폭의 파인튜닝만으로도 시간적 일관성을 크게 개선하는 방법인 Localized Semantic Alignment(LSA)를 제안한다. LSA는 DINOv2 기반 의미 특징을 이용해 동적 객체가 존재하는 영역을 강조한 의미 일치 손실을 정의하고, 이를 기존 확산 손실과 결합한다. nuScenes와 KITTI 데이터셋에서 FVD·FID는 물론 검출 기반 mAP·mIoU까지 전반적인 성능이 향상되었으며, 추론 단계에서는 추가 연산이나 제어 신호가 필요하지 않다.
상세 분석
LSA는 기존 확산 기반 비디오 생성 모델이 겪는 “프레임 간 플리커링”과 “객체 변형” 문제를 의미 레벨에서 해결하려는 시도다. 핵심 아이디어는 DINOv2와 같은 사전 학습된 비전 트랜스포머가 제공하는 고차원 의미 임베딩을 활용해, 생성된 프레임과 실제 프레임 사이의 의미 차이를 정량화하는 것이다. 특히, 동적 객체(차량, 보행자 등)의 바운딩 박스를 이용해 해당 영역의 패치에 가중치 α>1을 부여함으로써, 모델이 움직이는 객체의 외관과 위치를 보다 정확히 재현하도록 유도한다. 손실 함수 L_feat은 마스크된 MSE 형태이며, 기존 확산 손실 L_diff와 가중합으로 최적화된다.
학습 과정에서 U‑Net 백본만을 업데이트하고, VAE 인코더·디코더와 DINOv2는 고정한다는 설계는 파라미터 효율성을 높인다. 또한, 재구성 단계에서 디코더를 훈련 파이프라인에 삽입해 실제 픽셀 영상으로 복원함으로써 의미 손실을 직접 계산할 수 있게 만든 점이 주목할 만하다. 실험 결과는 두 가지 주요 지표에서 LSA가 기존 SVD 대비 크게 개선됨을 보여준다. FVD와 FID는 각각 3040% 정도 감소했으며, 검출 기반 mAP와 mIoU는 3050% 상승했다. 특히, Ctrl‑V와 같은 제어 기반 두 단계 파이프라인과 비교했을 때, 파라미터 수와 추론 시간 면에서 동일하거나 더 효율적이면서도 성능이 앞선다.
또한, LSA는 “드롭‑인” 방식으로 기존 조건부 비디오 생성 모델에 적용 가능하다는 점에서 실용성이 높다. 즉, 사전 학습된 SVD 모델에 LSA 파인튜닝만 수행하면, 별도의 제어 신호 없이도 동적 객체의 시간적 일관성을 확보할 수 있다. 이는 대규모 시뮬레이션 데이터 생성이나 자율주행 시뮬레이터에서 실제 도로 상황을 재현하는 데 큰 장점을 제공한다.
한계점으로는 동적 객체 마스크가 학습 시에만 필요하고, 추론 시에는 사용되지 않으므로, 마스크 품질에 따라 파인튜닝 효과가 달라질 수 있다. 또한, DINOv2와 같은 대형 사전 학습 모델에 의존하므로, 메모리 요구량이 증가할 가능성이 있다. 향후 연구에서는 마스크 자동 생성, 경량 의미 추출기 도입, 그리고 장거리 시퀀스에 대한 장기 일관성 강화 방안을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기