가능성 기반 메쉬 변형 2D 확산 모델 활용
초록
본 논문은 2D 확산 모델을 활용해 사용자가 지정한 변형 핸들을 따르면서도 메쉬의 시각적 현실감을 유지하는 APAP(As‑Plausible‑as‑Possible) 변형 프레임워크를 제안한다. 메쉬 변형을 면별 Jacobian으로 표현하고, 미분 가능한 포아송 솔버를 통해 정점 좌표를 복원한다. 변형된 메쉬를 렌더링한 2D 이미지에 Score Distillation Sampling을 적용해 사전 학습된 2D 확산 모델로부터 plausibility gradient를 얻고, 이를 사용자 핸들 변위와 함께 면별 Jacobian에 역전파한다. LoRA 기반 미세조정으로 모델이 편집 대상의 정체성을 보존하도록 강화했으며, 실험을 통해 기존 왜곡 최소화 방식보다 높은 정성·정량 성능을 확인하였다.
상세 분석
APAP 프레임워크는 메쉬 변형을 전통적인 vertex‑based 파라미터화 대신 면별 Jacobian(또는 라코비안)으로 정의한다. 이는 각 면의 국소 변형을 선형 변환 행렬로 표현함으로써, 변형 자유도를 크게 늘리면서도 연속성을 보장한다. 정점 좌표 복원은 ∇·J = Δx 형태의 포아송 방정식을 풀어 수행되며, 이 과정이 완전 미분 가능하도록 구현돼 역전파가 가능하다. 변형된 메쉬를 즉시 2D 이미지로 렌더링하고, 이 이미지를 사전 학습된 텍스트‑조건부 확산 모델에 입력한다. Score Distillation Sampling(SDS)은 현재 이미지와 텍스트 프롬프트(예: “realistic human face”) 사이의 스코어 차이를 이용해 이미지에 대한 그라디언트를 생성한다. 이 그라디언트는 메쉬의 시각적 plausibility를 높이는 방향을 제시한다.
핸들 기반 사용자 입력은 원하는 정점 이동을 목표로 하는 추가적인 손실 함수로 정의된다. 최종 손실은 사용자 손실과 SDS‑derived plausibility 손실의 가중합이며, 이를 면별 Jacobian에 대해 경사 하강법으로 최적화한다. 중요한 점은 2D 확산 모델이 3D 메쉬 자체를 직접 다루지 않음에도 불구하고, 렌더링된 이미지가 충분히 풍부한 시각 정보를 제공해 메쉬의 전반적인 형태와 텍스처까지 제어할 수 있다는 것이다.
모델의 정체성 보존을 위해 저자들은 LoRA(Low‑Rank Adaptation)를 이용해 사전 학습된 확산 모델을 소량의 도메인‑특정 메쉬 렌더링 데이터로 미세조정한다. 이는 기존 모델이 “사람 얼굴”과 같은 일반적인 프롬프트에 과도하게 편향되는 것을 방지하고, 편집 대상 메쉬의 고유한 특징을 유지하도록 돕는다. 실험에서는 인간 얼굴 메쉬, 동물 메쉬, 그리고 인공 구조물 메쉬에 대해 변형 전·후의 정규화된 평균 거리(NME), 지오메트리 보존 지표, 그리고 사용자 설문 기반 plausibility 점수를 비교하였다. APAP은 특히 높은 변형 강도에서도 시각적 일관성을 유지하며, 기존 방법보다 15~30% 정도의 정량적 개선을 보였다. 또한, 정성적 결과에서도 텍스처와 그림자까지 자연스럽게 재현되는 모습을 확인할 수 있었다.
전체 파이프라인은 (1) 초기 메쉬와 사용자 핸들 입력, (2) 면별 Jacobian 초기화, (3) 포아송 솔버를 통한 정점 복원, (4) 렌더링 → SDS 그라디언트 추출, (5) 손실 결합 및 Jacobian 업데이트의 순환으로 구성된다. 각 단계가 미분 가능하도록 설계돼 GPU 가속 하에 실시간에 가까운 인터랙티브 편집이 가능하다. 이와 같이 2D 확산 priors를 3D 메쉬 변형에 효과적으로 접목한 APAP은 향후 AR/VR 콘텐츠 제작, 디지털 인간 모델링, 그리고 게임 에셋 수정 등 다양한 분야에 응용될 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기