코어에디터 일관된 3D 편집을 위한 대응 제약 확산
초록
CoreEditor는 텍스트 기반 3D 편집 시 다중 뷰 간 일관성을 확보하기 위해, 기하학적 대응과 확산 과정에서 추출한 의미적 유사성을 결합한 대응‑제약 어텐션(Correspondence‑constrained Attention, CCA)을 도입한다. 사용자는 여러 후보 편집 결과 중 선호하는 이미지를 선택하고, 선택된 결과를 Reference Attention을 통해 전체 편집에 반영함으로써 전역 스타일을 정렬하고, CCA가 로컬 디테일의 일관성을 유지하도록 한다. 실험 결과, 기존 2D‑기반 다중 뷰 편집 방법보다 텍스처 선명도와 3D 일관성에서 크게 우수함을 보였다.
상세 분석
CoreEditor는 기존 텍스트‑구동 3D 편집이 겪는 “다중 뷰 불일치” 문제를 두 단계의 혁신적인 메커니즘으로 해결한다. 첫 번째는 Reference Attention (RA) 로, 사용자가 선택한 편집 이미지 Iᵣ 의 diffusion feature Fᵣ 를 모든 뷰의 self‑attention에 키‑값 쌍으로 추가한다. 이는 기존 self‑attention Zᵢ = softmax(Q·Kᵀ)·V 에 가중치 λ 를 도입해 Zᵢ = λ·softmax(Q·Kᵣᵀ)·Vᵣ + (1‑λ)·softmax(Q·Kᵢᵀ)·Vᵢ 와 같이 결합함으로써, 전역적인 편집 스타일을 한 번에 모든 뷰에 강제한다. 이렇게 하면 각 뷰가 독립적으로 다른 스타일을 생성해 발생하는 큰 편차를 사전에 억제한다.
두 번째 핵심은 Correspondence‑constrained Attention (CCA) 로, 기존의 self‑attention이 모든 토큰 간 자유롭게 정보를 교환하는 반면, CCA는 토큰 간 교류를 정확히 대응되는 픽셀에만 제한한다. 대응 관계는 두 가지 정보를 융합해 만든다.
- 기하학적 대응: 깊이 맵 D 과 카메라 파라미터 K, E 를 이용해 각 픽셀을 3D 공간에 역투영하고, 다른 뷰에 재투영해 정확한 좌표 (xₐ, yₐ) 를 얻는다. 재투영 오류를 기반으로 마스크 M 을 만들어 occlusion을 걸러낸다.
- 의미적(semantic) 대응: 기하학적 대응이 불가능하거나 불안정한 경우, diffusion U‑Net의 최종 레이어 특징 H 을 추출하고 코사인 유사도가 가장 높은 픽셀을 추가 대응으로 선택한다. 유사도 β (보통 0.9) 이상인 경우에만 채택해 잡음이 섞인 매칭을 방지한다.
이 두 종류의 대응을 합친 Geometric‑Semantic Co‑supported Correspondence는 CCA에 입력되어, 각 뷰의 토큰이 자신과 대응되는 토큰들만을 키‑값으로 사용하도록 강제한다. 결과적으로, 다중 뷰 간에 동일 3D 포인트가 차지하는 픽셀은 동일한 디노이징 흐름을 공유하게 되며, 이는 텍스처 디테일과 경계선이 뷰마다 일관되게 유지되는 효과를 만든다.
또한 CoreEditor는 Zero‑Shot 방식으로 기존의 latent diffusion 모델을 그대로 사용한다. RA와 CCA는 모두 기존 U‑Net 내부의 어텐션 연산을 재구성하는 형태이므로, 추가적인 파라미터 학습이나 대규모 재학습이 필요하지 않다. 이는 실시간 편집에 가까운 속도를 유지하면서도, 기존 2D‑기반 편집 파이프라인이 갖는 불안정성을 크게 감소시킨다.
실험에서는 GaussCtrl, DGE, InterGSEdit 등 최신 다중 뷰 편집 기법과 비교했을 때, PSNR/SSIM 및 LPIPS 지표에서 평균 1.2 dB, 0.03, 0.07 정도의 개선을 보였으며, 시각적으로도 텍스처가 더 선명하고 경계가 깨끗했다. 특히 360° 씬이나 큰 카메라 변위가 있는 경우에도 CCA가 의미적 대응을 활용해 안정적인 결과를 제공한다는 점이 강조된다.
요약하면, CoreEditor는 (1) 사용자 주도형 전역 스타일 정렬을 위한 Reference Attention, (2) 기하학·의미적 정보를 결합한 정밀 대응 기반의 Correspondence‑constrained Attention, (3) 기존 diffusion 모델의 파라미터를 그대로 유지하는 Zero‑Shot 설계라는 세 축을 통해, 텍스트‑구동 3D 편집의 핵심 과제였던 다중 뷰 일관성과 디테일 보존을 동시에 달성한다.
댓글 및 학술 토론
Loading comments...
의견 남기기