파동변환 확산을 이용한 빠른 희소 뷰 3D 가우시안 객체 재구성

파동변환 확산을 이용한 빠른 희소 뷰 3D 가우시안 객체 재구성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

WaveletGaussian은 3D Gaussian Splatting의 희소 뷰 재구성에서 발생하는 품질 저하를 해결하기 위해 확산 과정을 파동변환(웨이브렛) 도메인으로 옮긴다. 저해상도 LL 서브밴드에만 확산 모델을 적용하고, 고주파 서브밴드(LH, HL, HH)는 경량 U‑Net으로 정제한다. 또한 온라인 랜덤 마스킹을 도입해 기존의 leave‑one‑out 방식보다 효율적으로 학습 데이터를 생성한다. 실험 결과, 기존 최첨단 방법 대비 PSNR·SSIM·LPIPS에서 동등하거나 약간 우수한 성능을 보이며 학습 시간을 30~40% 절감한다.

상세 분석

WaveletGaussian은 3D Gaussian Splatting(3DGS)의 핵심 한계인 “희소 뷰” 상황에서의 기하학·텍스처 불안정을 파동변환 기반 확산 모델로 해결한다는 점에서 혁신적이다. 기존 연구들은 RGB 도메인에서 대규모 사전학습된 Denoising Diffusion Model(DDM)을 씬‑특화 파인튜닝하고, 이를 이용해 손상된 렌더링을 복구한 뒤 pseudo‑ground‑truth로 사용한다. 그러나 이 과정은 1) 전체 이미지 해상도에서 확산을 수행하므로 연산량이 크고, 2) 씬마다 별도 파인튜닝이 필요해 전체 파이프라인이 수십 분에서 한 시간 이상 걸린다.

WaveletGaussian은 두 가지 핵심 아이디어로 이러한 비용을 크게 낮춘다. 첫째, 이산 웨이브렛 변환(DWT)을 이용해 입력 이미지를 LL(저주파)과 LH, HL, HH(고주파) 네 개의 서브밴드로 분해한다. LL 서브밴드는 원본 해상도의 1/4(가로·세로 각각 1/2) 크기로, 전체 구조와 색상 정보를 담고 있다. 고주파 서브밴드는 세부 텍스처와 경계 정보를 담당한다. 저해상도 LL에만 확산 모델(D)을 적용함으로써 연산량을 4배 이상 감소시키면서도 전반적인 색·조도 복원을 가능하게 한다. 고주파 복원은 경량 U‑Net(U)으로 수행해 세부 디테일을 보강한다. 두 모델을 별도로 학습시킴으로써 저주파와 고주파가 서로 간섭하지 않으며, 각각의 특성에 맞는 최적화가 이루어진다.

둘째, 데이터 생성 단계에서 기존의 leave‑one‑out(LOO) 전략을 대체하는 온라인 랜덤 마스킹(ORM) 방식을 도입한다. LOO는 N개의 뷰 각각에 대해 별도 3DGS 모델을 학습시켜야 하므로 시간·메모리 비용이 비례적으로 증가한다. ORM은 단일 3DGS 모델(G_d)을 학습하면서, 각 뷰에 무작위 마스크 M을 적용해 다양한 결함 패턴을 시뮬레이션한다. 마스크는 sinusoidal displacement를 통해 시간에 따라 이동하므로, 동일 뷰에서도 다채로운 손상 형태를 생성한다. 이렇게 만든 손상‑정상 이미지 쌍을 LL 서브밴드와 고주파 서브밴드에 각각 매핑해 D와 U의 파인튜닝 데이터셋을 만든다. 결과적으로 전체 파이프라인이 한 번의 모델 학습으로 끝나며, LOO 대비 약 2~3배 빠른 데이터 준비가 가능하다.

실험에서는 Mip‑NeRF 360과 OmniObject3D 두 벤치마크에서 4‑view 설정을 기준으로 기존 GaussianObject(최신 3DGS 기반 희소 뷰 방법)과 비교했다. PSNR은 0.30.5dB 상승, SSIM·LPIPS에서도 소폭 개선을 보였으며, 전체 학습 시간은 33분(또는 35분)으로 GaussianObject의 5155분 대비 3040% 단축되었다. Ablation Study에서는 (1) ORM만 적용해도 LOO 대비 810분 절감, (2) LL‑only 확산만 적용하면 시간은 더 줄지만 PSNR이 약간 감소, (3) 고주파 U‑Net을 추가하면 최종 성능이 최고에 도달한다는 점을 확인했다.

이러한 설계는 “파동변환 + 확산”이라는 새로운 패러다임을 제시한다. 저해상도에서 전역적인 색·조도 복원을 수행하고, 고주파는 별도 경량 네트워크로 정제함으로써 연산 효율성과 재구성 품질을 동시에 달성한다. 또한 온라인 마스킹은 데이터 생성 비용을 크게 낮추어 실제 현장(예: 로봇 비전, AR/VR)에서 제한된 뷰 수만으로도 빠르게 고품질 3D 모델을 만들 수 있게 한다. 향후 연구에서는 다중 레벨 웨이브렛(예: 2‑레벨 Haar)이나 비정형(비정사각형) 뷰에 대한 확장, 그리고 텍스처·조명 분리 학습을 통해 더욱 정교한 복원을 기대할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기