어떤 조건이든, 캡션으로: 제어 가능한 비디오 생성의 새로운 패러다임
초록
Any2Caption은 사용자가 제공하는 텍스트, 이미지, 동영상, 동작, 카메라 포즈 등 다양한 조건을 통합 해석하여 구조화된 상세 캡션으로 변환하는 혁신적인 프레임워크입니다. 이렇게 생성된 풍부한 캡션은 기존 비디오 생성 모델에 입력되어 사용자 의도를 정확히 반영한 고품질의 제어 가능한 비디오를 만들어냅니다. 본 연구는 대규모 Any2CapIns 데이터셋을 구축하고, 조건 해석 단계와 비디오 생성 단계를 분리함으로써 기존 생성기의 성능을 별도 튜닝 없이도 획기적으로 향상시켰습니다.
상세 분석
본 논문이 제안하는 Any2Caption 프레임워크의 기술적 핵심은 ‘조건 해석’과 ‘비디오 합성’이라는 두 가지 복잡한 작업을 분리(Decouple)한 데 있습니다. 기존의 any-condition 비디오 생성 모델들은 Diffusion/DiT 백본 내부의 인코더가 텍스트와 다양한 시각적 조건(이미지, 포즈, 깊이맵 등)을 동시에 해석하고 생성해야 하는 부담을 안고 있었습니다. 이는 모델의 복잡성을 급격히 증가시키고, 특히 여러 조건이 결합된 복잡한 지시사항을 해석하는 데 한계를 보였습니다.
Any2Caption은 이 문제를 해결하기 위해 최신 MLLM(Multimodal Large Language Model)의 강력한 다중모달 이해 능력에 주목합니다. 구체적으로, Qwen2-LLM과 같은 LLM 백본에 맞춤형 이미지 인코더, 비디오 인코더, 그리고 특히 동작(Motion) 인코더와 카메라(Camera) 인코더를 통합합니다. 이 특화된 인코더들은 텍스트로는 표현하기 어려운 동적 움직임과 시네마토그래픽한 카메라 제어 정보를 효과적으로 포착합니다. 사용자의 짧은 텍스트 프롬프트와 다양한 조건을 입력받으면, 이 MLLM 기반 인터프리터는 ‘밀집 캡션’, ‘주요 객체 설명’, ‘배경 설명’, ‘카메라 설명’, ‘스타일 설명’, ‘동작 설명’ 등 6가지 범주로 구조화된 상세한 캡션을 생성합니다.
이 구조화된 캡션은 기존에 고성능으로 검증된 SOTA 비디오 생성기(예: HunyuanVideo, VideoComposer 등)에 그대로 입력됩니다. 이 생성기들은 이미 풍부한 텍스트 설명에서 고품질 비디오를 생성하는 능력을 갖추고 있으므로, Any2Caption이 제공하는 정교한 “생성 지시서"를 통해 사용자 의도를 훨씬 정확하게 구현할 수 있게 됩니다. 이는 프레임워크의 가장 큰 장점인 ‘플러그인 가능성’을 실현하며, 기존 생성 모델을 재학습 없이도 즉시 향상시킬 수 있습니다.
한편, 모델 학습을 위한 Any2CapIns 데이터셋의 구성 방법도 중요한 통찰을 제공합니다. 기존 비디오 재캡션 데이터셋이 단순히 비디오를 설명하는 데 그쳤다면, Any2CapIns는 ‘사용자 중심의 짧은 프롬프트’와 ‘여러 조건(깊이, 포즈, 다중 정체성, 카메라)’, 그리고 ‘구조화된 상세 캡션’의 삼중항(Triplet)으로 구성됩니다. 이는 모델이 실제 사용자가 조건을 주었을 때 어떻게 간략하게 표현하는지(예: “카메라가 팬하도록"이라고만 언급)를 학습하고, 이를 누락된 정보까지 포함한 완전한 지시문으로 확장하는 능력을 키우기 위함입니다. 33만 개가 넘는 고품질 인스턴스는 GPT-4V를 활용한 자동화와 꼼꼼한 인간 검증을 결합하여 확보했습니다.
실험 결과, Any2Caption을 통해 생성된 캡션은 원본 조건의 의미를 높은 정확도로 보존하며, 이를 바탕으로 한 비디오 생성은 정량/정성 평가에서 모든 조건 유형과 여러 생성기 백본에 걸쳐 일관되게 우수한 제어 정확도와 시각적 품질을 달성했습니다. 특히 여러 조건이 혼합된 복잡한 시나리오에서 기존 방법 대비 두드러진 성능 향상을 보였습니다. 이는 다중모달 조건 해석이라는 어려운 문제를 MLLM이라는 적절한 도구로 분리해 해결함으로써, 제어 가능한 비디오 생성의 실용성을 크게 높인 중요한 진전입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기