목표 인식 비디오 확산 모델

목표 인식 비디오 확산 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 입력 이미지와 목표 객체의 세그멘테이션 마스크, 그리고 행동을 설명하는 텍스트 프롬프트를 이용해, 배우가 지정된 목표와 상호작용하는 영상을 생성하는 목표 인식 비디오 확산 모델을 제안한다. 마스크 정보를 텍스트에 삽입된 특수 토큰(

상세 분석

이 연구는 최신 텍스트‑투‑비디오 확산 모델인 CogVideoX를 기반으로, 목표 객체를 명시적으로 인식하도록 설계된 확산 트랜스포머 구조를 제안한다. 핵심 아이디어는 입력 이미지와 함께 이진 세그멘테이션 마스크를 추가 입력으로 받아, 마스크를 저차원 잠재 공간에 맞게 다운샘플링한 뒤 이미지와 채널 차원으로 결합하는 것이다. 이때 기존 이미지 투영 레이어에 마스크 채널을 하나 더 삽입하고, 새 가중치를 0으로 초기화함으로써 사전 학습된 파라미터를 보존하면서 마스크 정보를 수용한다.

목표 인식을 강화하기 위해 텍스트 프롬프트에 “The person interacts with


댓글 및 학술 토론

Loading comments...

의견 남기기