추적에서 구조를: 비디오 생성에서 구조 보존 움직임 추출

추적에서 구조를: 비디오 생성에서 구조 보존 움직임 추출
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

비디오 생성 모델의 움직임 품질을 개선하기 위해, SAM2 비디오 추적 모델에서 구조 보존 움직임 정보를 추출하여 CogVideoX 확산 모델에 주입하는 새로운 학습 방법(SAM2VideoX)을 제안한다. 양방향 특징 융합과 Local Gram Flow 손실을 통해 더욱 자연스럽고 물리적으로 타당한 움직임을 생성하며, 벤치마크와 인간 평가에서 우수한 성능을 입증했다.

상세 분석

본 논문은 비디오 생성 분야의 지속적인 난제인 ‘구조 보존 움직임(Structure-Preserving Motion)’ 생성 문제를 해결하기 위한 혁신적인 접근법을 제시한다. 기존 확산 기반 비디오 생성 모델들은 고정밀 정적 이미지를 생성하는 데는 뛰어나지만, 특히 인간이나 동물과 같이 관절이 많고 변형이 심한 객체의 물리적으로 타당하고 구조를 유지하는 동적 움직임을 생성하는 데는 한계를 보여왔다. 저자들은 단순히 데이터를 확장하거나, 노이즈가 많은 광학 흐름(optical flow)이나 스켈레톤과 같은 외부 모델에서 추출한 명시적 운동 표현에 의존하는 기존 방법의 근본적 한계를 지적한다.

이에 대한 해법으로 ‘추적에서 구조를 유도한다(deriving structure from tracking)‘는 핵심 아이디어를 제안한다. 구체적으로는 대규모 비디오 데이터로 학습된 최첨단 비디오 추적 모델인 SAM2(Segment Anything Model 2)의 내부 표현을 ‘움직임 사전 지식(motion prior)‘으로 활용한다. SAM2는 객체의 정체성을 오클루전 상황에서도 장시간 유지하며 추적하는 능력을 가지므로, 그 내부 특징 맵에는 객체의 부분들이 어떻게 함께 움직이고, 팔다리가 어떻게 연결되어 있으며, 시간에 따른 변화가 어떻게 구조를 유지하는지에 대한 암묵적 지식이 녹아 있다. 이 지식을 명시적인 마스크나 제어 신호가 아닌, SAM2의 내부 특징 자체를 비디오 확산 모델에 주입함으로써 전달하는 것이 핵심이다.

기술적 기여는 크게 두 가지로 요약된다. 첫째는 ‘양방향 특징 융합(Bidirectional Feature Fusion)‘이다. SAM2는 순환적·인과적 구조를 가져 현재 및 과거 프레임 정보만을 인코딩하는 반면, DiT 기반 비디오 생성기는 양방향 어텐션을 사용한다. 이 비대칭성을 해결하기 위해 원본 비디오와 시간적으로 반전된 비디오를 각각 SAM2에 입력하여 얻은 순방향 및 역방향 특징을 융합함으로써 전역적 비디오 문맥을 지닌 교사(teacher) 신호를 생성한다. 둘째는 ‘Local Gram Flow (LGF) 손실’이다. 단순한 L2 정렬은 움직임 구조를 포착하기에 부적합하다는 점을 지적하며, 각 공간 토큰과 다음 프레임의 국소적(7x7) 이웃 토큰들 간의 유사도 벡터(그램 행렬의 국소적 버전)를 계산하고, 이를 확률 분포로 변환한 후 KL 발산으로 정렬하는 방식을 제안한다. 이는 절대적 특징값보다는 토큰들 간의 상대적 운동 관계를 학습하도록 유도하여 보다 효과적인 운동 구조 전이를 가능하게 한다.

실험 결과는 제안 방법(SAM2VideoX)의 유효성을 입증한다. VBench에서 기존 최고 방법 대비 2.60%p 향상된 95.51%를 기록했으며, FVD(Fréchet Video Distance)는 21~22% 감소했다. 무엇보다도 인간 주관 평가에서 71.4%의 선호도를 얻은 것은 생성된 움직임의 현실성과 구조 보존 능력이 인간이 인지하는 수준에서도 개선되었음을 의미한다. 이 방법은 추적 모델의 ‘이해’ 능력을 생성 모델의 ‘창조’ 능력에 접목한 성공적인 지식 증류 사례이며, 비디오 생성의 본질적 난제인 동적 구조 모델링에 대한 새로운 패러다임을 제시한다는 점에서 의미가 깊다.


댓글 및 학술 토론

Loading comments...

의견 남기기