단일 이미지 기반 메쉬 편집을 위한 VecSet Edit
초록
VecSet‑Edit은 사전 학습된 VecSet 대규모 재구성 모델(LRM)을 활용해, 단일 2D 이미지와 2D 마스크만으로 3D 메쉬의 국부적인 기하·텍스처 변형을 수행하는 최초의 훈련‑무료 파이프라인이다. 토큰의 공간적 특성을 분석해 마스크‑가이드 토큰 시딩과 어텐션‑정렬 토큰 게이팅으로 편집 영역을 정확히 추출하고, 드리프트‑인식 토큰 프루닝으로 디노이징 과정에서 발생할 수 있는 기하학적 오류를 억제한다. 마지막으로 디테일 보존 텍스처 베이킹을 통해 원본 메쉬의 고주파 텍스처를 유지한다.
상세 분석
본 논문은 3D 메쉬 편집이라는 오래된 문제에 최신 대규모 재구성 모델(LRM)인 VecSet을 적용함으로써 두 가지 핵심 난관을 해결한다. 첫 번째는 “토큰‑지역성” 문제이다. VecSet은 메쉬를 무순서 토큰 집합으로 인코딩하지만, 각 토큰은 학습 과정에서 쿼리 포인트의 3D 좌표와 연결되어 있어 실제 표면상의 특정 영역에 강하게 매핑된다. 논문은 이를 정량적으로 검증하기 위해 바운딩 박스와 Chamfer Distance를 이용해 토큰 서브셋이 해당 영역을 얼마나 정확히 재구성하는지 실험하였다. 82 % 이상의 샘플이 0.30 ε 이하의 오차를 보이며, 토큰이 공간적 일관성을 어느 정도 유지함을 확인했다. 이 발견은 “편집 토큰 선택”을 가능하게 하는 이론적 기반이 된다.
두 번째는 “조건‑기반 토큰 선택”이다. 사용자는 2D 이미지와 바이너리 마스크만 제공하므로, 해당 마스크와 높은 어텐션 상관을 보이는 토큰을 찾아야 한다. 저자는 크로스‑어텐션 맵을 층·시간별로 누적하고, KL‑다이버전스가 큰 층을 가중치로 사용해 마스크‑가이드 토큰 시딩을 수행한다. 이렇게 얻은 초기 토큰 집합은 어텐션‑정렬 토큰 게이팅 단계에서 자체 어텐션을 통해 토큰 간 상관관계를 재평가하고, 편집 영역에 가장 관련 깊은 토큰만을 최종 선택한다. 이 두 단계는 2D 마스크의 노이즈와 3D 토큰의 비정형성을 동시에 보정한다.
디노이징 과정에서는 VecSet 토큰이 시간에 따라 위치를 이동하는 “드리프트” 현상이 발생한다. 기존 voxel‑기반 LRM과 달리, 토큰이 고정 격자에 묶여 있지 않기 때문에 작은 드리프트라도 편집 영역과 보존 영역 사이에 경계 혼합을 일으킬 수 있다. 이를 방지하기 위해 저자는 “드리프트‑인식 토큰 프루닝”을 도입한다. 디노이징 중 각 토큰의 현재 위치와 원본 토큰 집합 간의 기하학적 일관성을 측정하고, 일정 기준을 초과하는 토큰을 삭제한다. 결과적으로 편집된 영역은 목표 이미지와 잘 맞으면서도, 원본 메쉬의 나머지 부분은 변형되지 않는다.
마지막으로 텍스처 보존을 위해 “디테일‑보존 텍스처 베이킹” 모듈을 설계한다. 편집된 토큰에 의해 재구성된 메쉬의 UV 맵을 기존 메쉬와 정렬한 뒤, 편집 영역에만 새로운 텍스처를 베이킹하고, 나머지 영역은 원본 텍스처를 그대로 복사한다. 이렇게 하면 고주파 디테일이 손실되지 않아, 애니메이션이나 물리 시뮬레이션에 바로 사용할 수 있는 품질 높은 메쉬를 얻는다.
전체 파이프라인은 사전 학습된 VecSet LRM을 그대로 활용하므로 추가 학습이 필요 없으며, 2D 마스크 하나만으로도 복잡한 다중 객체 씬에서 정밀한 로컬 편집이 가능하다. 실험 결과는 VoxHammer와 같은 voxel‑기반 방법에 비해 해상도·디테일·편집 정확도에서 우수함을 보이며, 특히 얇은 구조나 고주파 텍스처가 많은 경우에도 안정적인 성능을 나타낸다.
댓글 및 학술 토론
Loading comments...
의견 남기기