교차모달 주의력 주입을 통한 정렬된 새로운 시점 이미지와 기하학 합성
초록
본 논문은 오프‑더‑쉘프 기하학 예측기를 활용해 부분적인 3D 포인트 클라우드를 얻고, 이를 목표 시점으로 투영한 뒤 이미지와 기하학을 동시에 인페인팅하는 확산 기반 프레임워크를 제안한다. 이미지 확산 네트워크의 공간 주의력 맵을 기하학 확산 네트워크에 주입하는 ‘Cross‑Modal Attention Instillation (MoAI)’을 통해 두 모달리티 간 정렬을 강화하고, 근접 기반 메쉬 컨디셔닝으로 잡음과 오류를 억제한다. 실험 결과, 제안 방법은 미지의 장면에 대해 높은 품질의 외삽(view extrapolation) 이미지와 정밀한 기하학을 동시에 생성하며, 기존 방법들을 능가한다.
상세 분석
MoAI는 이미지와 기하학 두 개의 U‑Net을 병렬로 학습시키면서, 이미지 디노이징 네트워크가 생성하는 공간 주의력(Spatial Attention) 맵을 기하학 디노이징 네트워크에 직접 전달한다는 점에서 혁신적이다. 이미지 네트워크는 다중 레퍼런스 이미지 간의 교차‑어텐션을 통해 잠재적인 3D 대응 관계를 학습하고, 이때 얻어진 주의력 맵은 “어디에” 정보를 집중해야 하는지를 암시한다. 이를 기하학 네트워크에 주입함으로써, 기하학 네트워크는 이미지가 제공하는 풍부한 의미 정보를 활용해 보다 일관된 포인트맵을 복원한다. 반대로, 기하학 네트워크는 깊이·노멀 등 저차원 기하학 신호를 이미지 네트워크에 제공함으로써, 이미지 생성 과정에서 공간적 일관성을 유지한다.
또한, 논문은 ‘근접 기반 메쉬 컨디셔닝(Proximity‑based Mesh Conditioning)’을 도입해, 오프‑더‑쉘프 예측기가 만든 잡음이 많은 포인트 클라우드에 대해 두 단계의 정제 과정을 수행한다. 첫 번째 단계는 투영 시점에서 동일 픽셀에 겹치는 여러 포인트 중 가장 가까운 포인트만을 선택해 깊이 충돌을 방지한다. 두 번째 단계는 포인트 간 거리와 법선 정보를 이용해 스무딩 및 필터링을 적용, 비정상적인 외곡을 억제한다. 이 과정은 이미지와 기하학이 동일한 좌표계에서 정렬되도록 보장한다.
학습 단계에서는 이미지와 기하학 손실을 각각 MSE/MAE 기반 이미지 재구성 손실과 포인트맵 L1 손실로 정의하고, 두 손실을 가중합해 멀티태스크 최적화를 수행한다. 중요한 점은 두 네트워크가 동일한 조건(c_t, c_r) – 즉 목표 시점의 투영 포인트맵과 레퍼런스 포인트맵의 퓨리에 임베딩 – 을 공유한다는 것이다. 이는 두 모달리티가 동일한 ‘시공간 좌표’를 기준으로 학습하도록 강제해, 최종 출력인 이미지와 포인트 클라우드가 픽셀‑레벨에서 정확히 일치하도록 만든다.
실험에서는 기존의 NeRF 기반 최적화 방법, Feed‑forward NVS 모델, 그리고 최신 확산 기반 NVS 모델과 비교했을 때, 특히 외삽(Extrapolation) 상황에서 PSNR/SSIM/LPIPS 지표가 크게 향상되었다. 또한, 생성된 포인트 클라우드에 색상 정보를 부여해 3D 완성도(Completion) 평가에서도 경쟁 모델들을 앞섰다. 이는 MoAI가 이미지와 기하학 사이의 상호 보완적 정보를 효과적으로 교환함으로써, 단일 모달리티만을 이용한 기존 접근법이 겪는 ‘정렬 불일치’ 문제를 근본적으로 해결했음을 의미한다.
요약하면, 이 논문은 (1) 오프‑더‑쉘프 기하학 예측기로부터 얻은 부분적인 3D 정보를 활용한 warping‑and‑inpainting 파이프라인, (2) 이미지와 기하학 확산 모델 간 주의력 맵을 교환하는 Cross‑Modal Attention Instillation, (3) 근접 기반 메쉬 컨디셔닝을 통한 잡음 억제라는 세 가지 핵심 기법을 제시한다. 이들 기법은 서로 시너지 효과를 내어, 미지의 시점에서도 고품질 이미지와 정밀한 기하학을 동시에 생성하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기