멀티모달 기하학적 사전과 KAN 디코더를 활용한 단일 이미지 3D 재구성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 RGB 이미지와 클래스‑레벨 기하학적 사전을 결합하고, Kolmogorov‑Arnold 네트워크(KAN) 기반 하이브리드 디코더를 도입하여 복잡한 실세계 장면에서 단일 이미지 3D 재구성 성능을 크게 향상시킨다. Pix3D 데이터셋 실험을 통해 Chamfer Distance 9.86% 감소, F‑Score 6.03% 상승, Normal Consistency 12.2% 개선을 달성하였다.

상세 분석

**
MGP‑KAD는 크게 세 단계로 구성된다. 첫 번째 단계는 클래스별 대표 형태를 샘플링·클러스터링하여 구축한 기하학적 사전 라이브러리이다. 여기서는 각 카테고리의 평균 표면 분포와 가장 근접한 인스턴스를 원형 프로토타입으로 선정하고, t‑SNE 시각화를 통해 클래스 간 구분성을 확인한다. 데이터 불균형을 완화하기 위해 저빈도 클래스에 대해 다른 클래스의 사전을 가중치 보정 방식으로 보완한다는 점이 실용적이다.

두 번째 단계는 이미지 인코더(M3D 기반)에서 추출한 256‑차원 시멘틱 피처와, 위에서 만든 사전에서 동적으로 추출한 256‑차원 기하학적 피처를 멀티‑헤드 어텐션(M=8)으로 융합한다. 질의(Q)는 이미지 피처, 키와 밸류(K,V)는 사전 피처로 설정해, 카테고리 원-핫 벡터를 통해 클래스 정보를 명시적으로 전달한다. 이 설계는 (1) 클래스 적응성, (2) 노이즈 강인성, (3) 미세 디테일 보존을 동시에 만족한다.

세 번째 단계가 핵심인 KAN 기반 디코더이다. 기존 MLP 디코더는 선형 레이어와 ReLU·SiLU 같은 고정 비선형성에 의존해 고주파 디테일을 놓치기 쉽다. KANLinear 모듈은 기본 선형 변환에 B‑스플라인 기반 비선형 파라미터를 추가함으로써, 입력 공간을 가변적인 그리드 위에서 연속적으로 근사한다. 논문에서는 동적 그리드 적응 알고리즘을 제시해 입력 분포에 따라 스플라인 그리드를 균일·적응형으로 블렌딩하고, 이를 통해 복잡한 표면 곡률을 정밀하게 모델링한다.

디코더는 앞선 피처 변환 네트워크(Softplus 활성화, 특수 초기화)와 다중 스케일 KANLinear 층(R128→R32→R16→R8→R1)으로 구성된다. 각 층은 점진적으로 차원을 축소하면서 전역 형태와 국부 디테일을 동시에 학습한다. 또한, 훈련 시에는 차별 가능한 볼류메트릭 렌더링 브랜치를 추가해 색상·깊이·노멀 재투영 손실을 적용하고, 추론 단계에서는 마칭 큐브스만 사용해 효율성을 확보한다.

실험 결과는 설득력 있다. Pix3D 9개 카테고리 전체에서 CD, F‑Score, NC 모두 기존 최첨단 SSR, MGN, LIEN 등을 앞선다. 특히 CD 9.86% 감소와 NC 12.2% 상승은 기하학적 사전이 형태 일관성을 크게 강화했음을 시사한다. Ablation 연구에서는 KAN 모듈을 제거했을 때 CD가 34.9% 급증하고 F‑Score가 4.27% 하락하는 등, KAN의 비선형 근사 능력이 핵심임을 입증한다. 또한, 기하학적 사전만 제거해도 성능이 크게 저하돼 두 모듈이 상호 보완적으로 작용함을 확인한다.

전체적으로 MGP‑KAD는 (1) 클래스‑레벨 기하학적 사전으로 RGB만으로는 부족한 구조 정보를 보완하고, (2) KAN 기반 비선형 디코더로 멀티모달 피처를 효과적으로 융합한다는 두 축을 통해 복잡한 실세계 장면에서 단일 이미지 3D 재구성의 정확도와 디테일을 크게 향상시킨다. 향후 연구에서는 사전 구축 비용을 줄이기 위한 메타‑학습 방식이나, 실시간 응용을 위한 경량 KAN 설계가 기대된다.

멀티모달 기하학적 사전과 KAN 디코더를 활용한 단일 이미지 3D 재구성

초록

상세 분석

댓글 및 학술 토론

의견 남기기