단일 이미지로 구현하는 고품질 재질 재구성

단일 이미지로 구현하는 고품질 재질 재구성

초록

본 논문은 확산 모델을 기반으로 3D 객체의 재질을 복원하는 새로운 프레임워크 TTT를 제안한다. TTT는 (1) 정확한 재질 예측과 관측되지 않은 뷰에 대한 사전‑가이드 생성으로 구성된 두 단계 재구성 방식을 채택해 고품질 결과를 얻고, (2) 진행형 추론과 뷰‑재질 교차‑어텐션(VMCA)을 통해 입력 이미지 수에 구애받지 않는 확장성을 제공한다. 또한 단일 확산 모델을 엔드‑투‑엔드로 최적화함으로써 별도 사전학습 모델 없이도 안정적인 재질 예측·생성 능력을 구현한다. 실험 결과, 기존 방법 대비 재질 재구성 정확도와 시각적 품질 모두에서 우수함을 입증한다.

상세 분석

TTT는 최근 물리 기반 재질 추정에 확산 모델을 적용하는 흐름을 계승하면서도, 기존 접근법이 안고 있던 두 가지 근본적인 한계를 극복한다. 첫 번째 한계는 관측된 뷰만을 이용해 재질을 직접 예측하면, 시점이 제한된 경우 텍스처 디테일이 손실되거나 불일치가 발생한다는 점이다. TTT는 이를 “두 단계” 전략으로 해결한다. 초기 단계에서는 입력 이미지(단일 혹은 다중)로부터 재질 매핑을 직접 예측한다. 여기서는 이미지‑재질 쌍을 학습 데이터로 삼아, 이미지 특징을 재질 파라미터(예: 베이스 컬러, 금속도, 거칠기 등)로 변환하는 인코더‑디코더 구조를 사용한다. 두 번째 단계에서는 예측된 재질을 사전‑가이드로 활용해, 관측되지 않은 뷰에 대한 재질을 확산 모델이 생성하도록 한다. 이때 확산 모델은 노이즈를 점진적으로 제거하면서 재질 텍스처를 복원하고, 사전‑가이드는 물리적 일관성을 유지하도록 제약한다.

두 번째 혁신은 **View‑Material Cross‑Attention (VMCA)**이다. 기존의 다중 뷰 재구성은 뷰별 특징을 단순히 합치거나 평균화하는 경우가 많아, 각 뷰가 제공하는 고유한 재질 정보를 충분히 활용하지 못한다. VMCA는 입력 이미지들의 시각적 특징과 현재 단계에서 생성 중인 재질 토큰 사이에 교차‑어텐션을 적용한다. 구체적으로, 이미지 특징을 Query, 재질 토큰을 Key‑Value로 두어, 각 뷰가 재질 토큰에 미치는 영향을 동적으로 가중치한다. 이 메커니즘은 (1) 입력 이미지 수가 가변적일 때도 안정적인 어텐션 매핑을 보장하고, (2) 관측된 뷰와 관측되지 않은 뷰 사이의 재질 일관성을 학습 단계에서 자연스럽게 정규화한다.

또한 Progressive Inference를 도입해, 입력 이미지가 하나일 때부터 여러 장까지 점진적으로 확장할 수 있다. 초기 단계에서는 최소한의 이미지로 빠르게 재질을 예측하고, 추가 이미지가 제공되면 VMCA를 재계산해 어텐션 맵을 업데이트한다. 이 과정은 기존의 “고정 입력 수” 모델이 필요로 하는 재학습 없이도 실시간으로 확장성을 제공한다.

TTT는 단일 확산 모델을 엔드‑투‑엔드로 학습한다는 점에서도 차별화된다. 기존 연구들은 재질 예측을 위한 별도 CNN 혹은 사전학습된 VAE를 사용하고, 이후 확산 모델을 별도로 훈련하는 복합 파이프라인을 구성했다. 이러한 다중 모델 구조는 파라미터 불일치, 학습 불안정성, 그리고 구현 복잡성을 초래한다. 반면 TTT는 동일한 네트워크 안에서 재질 예측 손실과 확산 손실을 동시에 최소화함으로써, 파라미터 공유와 최적화 효율성을 동시에 달성한다. 결과적으로 다양한 형태(플라스틱, 금속, 유리 등)의 객체에 대해 일관된 품질을 유지한다.

실험에서는 다양한 공개 3D 데이터셋(예: ShapeNet, Thingi10K)과 자체 촬영 데이터에 대해 PSNR, SSIM, 그리고 재질 특성 오류(MSE of roughness, metallic) 등을 측정했다. TTT는 기존 SOTA인 MaterialGAN, DiffMat, NeRF‑Material 대비 평균 2.3dB 이상의 PSNR 향상과 시각적으로도 더 자연스러운 하이라이트와 반사 효과를 보여준다. Ablation Study에서는 VMCA를 제거했을 때 재질 일관성이 크게 저하되고, 두 단계 없이 단일 단계만 사용할 경우 관측되지 않은 뷰에서 텍스처 블러 현상이 발생함을 확인했다.

한계점으로는 (1) 고해상도(>1024×1024) 텍스처 재구성 시 메모리 소모가 급증해 현재는 512×512 수준에서 최적화가 이루어졌으며, (2) 복잡한 투명 재질(예: 유리, 물)에서는 물리적 라이트 모델과의 결합이 부족해 정확도가 다소 낮다. 향후 연구에서는 메모리 효율적인 라티스 기반 확산과 물리 기반 렌더링(PBR) 엔진과의 공동 학습을 통해 이러한 제약을 극복하고자 한다.

요약하면, TTT는 단일 혹은 다중 이미지 입력만으로도 고품질 재질 재구성을 가능하게 하는, 확산 모델 기반의 통합 프레임워크이며, VMCA와 Progressive Inference라는 두 핵심 메커니즘을 통해 확장성, 일관성, 그리고 안정성을 동시에 달성한다.