텍스처를 위한 연속형 암시적 신경표현: MLP와 주파수 인코딩의 비교 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 UV 좌표를 입력으로 받아 RGB 색을 출력하는 다양한 MLP 기반 암시적 신경표현(INR) 모델을 설계·평가한다. 순수 MLP, SIREN(사인 활성화), Fourier 위치 인코딩을 적용한 MLP를 비교하고, 최적화 기법(Adam vs Rprop), 모델 규모, 메모리·연산 비용을 분석한다. 실험 결과 Fourier 인코딩 MLP가 압축 효율·시각 품질 모두에서 가장 우수했으며, 기존 ASTC 압축을 능가한다. 또한 mipmap 레벨을 입력에 포함한 학습과 INR 가중치 공간에서의 생성 모델(디퓨전)까지 확장한다.

상세 분석

이 연구는 텍스처 압축 및 실시간 렌더링에서 GPU 메모리와 전력 소모를 크게 감소시킬 수 있는 암시적 신경표현(INR)의 가능성을 체계적으로 탐구한다. 먼저 저자들은 DTD(Describable Textures Dataset)에서 라플라시안 분산(LAPV) 기반으로 25개의 고다양성 이미지를 선정해 실험 데이터셋을 구축하였다. 네 가지 MLP 아키텍처 중 실제 평가에 사용된 것은 (1) 순수 MLP, (2) SIREN(사인 활성화), (3) Fourier 위치 인코딩을 적용한 MLP이며, 해시 인코딩은 고해상도에 대한 향후 연구로 남겨두었다.

모델 규모는 깊이(1~3 hidden layer)와 폭(128, 256, 512)로 다양하게 조정했으며, 최적화 알고리즘은 Adam과 Rprop을 비교하였다. 평가 지표는 픽셀 수준 MAE, MSE, PSNR와 구조·시각적 유사성을 측정하는 SSIM, LPIPS, VMAF를 포함한다. 결과적으로 Fourier 인코딩 MLP는 높은 비트레이트에서도 LPIPS가 거의 0에 가까워 원본과 거의 구분이 어려운 수준을 달성했으며, SSIM·VMAF·PSNR에서도 SIREN에 근접하거나 약간 앞섰다. 순수 MLP는 저주파 특성만 학습해 전반적으로 흐릿한 결과를 보였고, 특히 직선이나 급격한 색 변화가 있는 텍스처에서 큰 손실을 나타냈다. SIREN은 사인 활성화 덕분에 고주파 정보를 어느 정도 포착했지만, 학습률에 민감해 작은 η를 사용해야 했으며, 일부 이미지에서는 곡선형 잡음이 남아 품질 저하를 일으켰다.

최적화 측면에서는 Adam이 전반적으로 더 빠른 수렴과 일관된 품질을 제공했으며, Rprop은 특히 Fourier 인코딩 모델에서 고주파 잡음이 더 두드러졌다. 학습 시간은 RTX 5080Ti GPU 기준 0.5~~2 iteration/s, 전체 50 epoch당 50~~200초로 비실시간이지만, 사전 학습된 가중치를 이용한 렌더링은 MLP 호출당 비용이 낮아 실시간 응용에도 충분히 적용 가능하다.

압축 효율을 기존 ASTC와 비교했을 때, INR은 동일 비트레이트에서 LPIPS가 크게 개선돼 시각적 품질이 우수했으며, SSIM·PSNR에서도 약간의 이점을 보였다. 특히 mipmap 레벨을 추가 입력(t∈

텍스처를 위한 연속형 암시적 신경표현: MLP와 주파수 인코딩의 비교 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기