프레임을 넘어 시퀀스로 인간 중심 밀도 예측의 시간 일관성 확보

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간 영상에 대한 깊이, 표면 법선, 마스크 등 다중 밀도 예측을 시간적으로 일관되게 수행하도록 설계된 새로운 합성 데이터 파이프라인과 ViT 기반 모델을 제안한다. 정적 프레임 학습과 동적 시퀀스 학습을 2단계로 진행하며, 인간 기하학적 사전(CSE 임베딩)과 경량 채널 재가중치 모듈을 도입해 공간·시간 양쪽에서 성능을 크게 향상시킨다.

상세 분석

이 연구는 인간 중심 비디오에서 발생하는 ‘플리커링’ 문제를 근본적으로 해결하기 위해 데이터와 모델 양쪽을 동시에 혁신한다. 첫 번째 기여는 AMASS 모션 캡처와 Blender 기반 렌더링을 결합한 대규모 합성 파이프라인이다. 기존 합성 데이터는 정적 이미지에 국한되었지만, 여기서는 200K 이상의 고유 인물·복장 조합을 만들고, 각 인물에 대해 500프레임까지의 연속 동작 시퀀스를 생성한다. 이렇게 얻어진 시퀀스는 픽셀 수준의 깊이, 표면 법선, 세그멘테이션 마스크를 동시에 제공하므로, 공간적 학습과 시간적 학습을 동일한 데이터셋에서 수행할 수 있다.

두 번째 기여는 인간 기하학적 사전(CSE, Continuous Surface Embedding)을 ViT 백본에 직접 주입하는 설계이다. CSE는 인체 파트와 UV 좌표 정보를 연속적인 벡터로 압축해 주며, 이를 1×1 컨볼루션과 업샘플링을 통해 디코더 피처와 동일 차원·해상도로 맞춘 뒤, 요소별 합산으로 결합한다. 이 과정은 모델이 인간 구조를 사전에 인식하도록 강제해, 일반적인 사전학습된 DINO 토큰이 놓치기 쉬운 미세한 신체 디테일(예: 머리카락, 옷 주름)을 보존한다.

또한, CNN 기반 로컬 피처와 DPT 디코더의 전역 피처를 채널 차원에서 결합한 뒤, 경량 채널 가중치 적응(CWA) 모듈을 적용한다. CWA는 전역 평균 풀링으로 채널 별 요약 벡터를 만든 뒤, 두 층 MLP와 시그모이드 활성화로 각 채널에 0~1 사이의 스칼라를 부여한다. 학습 과정에서 깊이·법선 손실이 높은 채널에 높은 가중치를 할당하도록 유도함으로써, 조명·텍스처와 같은 외관 정보가 기하학적 예측에 미치는 부정적 영향을 억제한다.

학습 전략은 두 단계로 나뉜다. 1단계에서는 합성 정적 이미지만 사용해 기본적인 공간 표현을 학습한다. 여기서는 깊이와 법선에 각각 스케일·시프트 정규화, 그래디언트 손실, 코사인 손실, 다중 스케일 라플라시안 손실 등을 적용해 고주파 디테일을 유지한다. 2단계에서는 앞서 삽입한 시간 블록(Temporal Attention)과 흐름 기반 안정화 항을 이용해 동적 시퀀스에 대한 일관성을 학습한다. 결과적으로 모델은 정적 정확도와 시간적 일관성을 동시에 달성한다.

실험에서는 THuman2.1과 Hi4D 데이터셋에서 기존 최첨단 방법들을 크게 앞섰으며, 실제 촬영된 ‘in‑the‑wild’ 비디오에서도 플리커링이 현저히 감소한 모습을 보였다. 전체 파이프라인은 합성 데이터와 모델 설계가 상호 보완적으로 작용한다는 점을 입증한다.

프레임을 넘어 시퀀스로 인간 중심 밀도 예측의 시간 일관성 확보

초록

상세 분석

댓글 및 학술 토론

의견 남기기