구조와 텍스처를 동시에 살리는 컨볼루션 다운샘플링 기반 이미지 인페인팅

구조와 텍스처를 동시에 살리는 컨볼루션 다운샘플링 기반 이미지 인페인팅
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인코더 단계에서 고주파 구조와 저주파 텍스처 특징 맵이 컨볼루션 다운샘플링 과정에서 손실되는 문제를 해결하고자, 구조 특징 맵을 이용해 텍스처 특징 맵을 재구성하는 정규화·역정규화 전략을 제안한다. 전역·국부 정규화를 각각 전역 구조와 국부 잔차 구조와 결합해 텍스처를 복원하고, 크로스‑레이어 밸런스 모듈로 전·후 단계의 기여도를 조절한다. 256×256·512×512 해상도에서 기존 SOTA와 비교해 정량·정성적으로 우수한 결과를 보이며, 모든 기존 인코더를 교체해도 성능 향상이 입증되었다.

상세 분석

이 논문은 최근 인코더‑디코더 기반 이미지 인페인팅 연구에서 간과된 “다운샘플링 단계의 정보 손실”을 정밀하게 짚어낸다. 기존 방법들은 주로 인코더에서 구조(고주파)와 텍스처(저주파)를 별도로 추출한 뒤, 디코더에서 이를 융합하거나 상호 가이드를 제공하는 데 초점을 맞추었다. 그러나 컨볼루션에 의한 다운샘플링 과정에서 피처 맵의 공간 해상도가 급격히 감소하면서, 특히 텍스처 피처가 중요한 세부 정보를 크게 잃게 된다. 논문은 이 문제를 두 가지 핵심 아이디어로 해결한다.

  1. 구조 → 텍스처 재구성: 구조 피처 맵은 일반적으로 희소하고 고주파 정보를 담고 있어, 이를 직접 텍스처 피처에 융합하면 희소성이 손상된다. 대신, 구조 피처를 “정규화된 텍스처”의 통계적 기준으로 활용해 역정규화(denormalization)함으로써 텍스처 피처를 복원한다. 이는 텍스처가 가진 풍부한 저주파 정보를 유지하면서도 구조의 경계 정보를 보강한다는 점에서 혁신적이다.

  2. 전역·국부 정규화와 잔차 구조의 조화: 전역 정규화는 전체 피처 맵의 평균·분산을 이용해 전역 텍스처를 강조하고, 국부 정규화는 채널별 위치별 통계를 이용해 세밀한 텍스처를 보강한다. 전역 텍스처 복원에는 전역 구조 피처를, 국부 텍스처 복원에는 국부 잔차 구조 피처를 매칭시켜 각각 최적의 재구성을 수행한다. 실험을 통해 전역‑전역, 국부‑국부 매칭이 가장 효과적임을 확인하였다.

또한, 크로스‑레이어 밸런스 모듈을 도입해 초기 단계에서는 전역 구조가, 후반 단계에서는 국부 잔차 구조가 더 큰 기여를 하도록 가중치를 동적으로 조절한다. 이는 깊은 레이어일수록 텍스처 손실이 심해지는 현상을 완화하고, 전체 네트워크가 균형 잡힌 정보를 전달하도록 만든다.

기술적인 구현 측면에서는

  • 부분 컨볼루션(partial convolution)으로 마스크된 영역만을 이용해 구조 피처를 추출하고,
  • 스페이셜 어댑티브 정규화(SPADE)와 유사한 방식으로 텍스처 피처에 정규화·역정규화를 적용하며,
  • 두 텍스처 복원 결과를 element‑wise addition 후 다음 레이어로 전달하는 파이프라인을 설계하였다.

실험에서는 CelebA‑HQ, Places2 등 다양한 데이터셋에서 256×256·512×512 해상도에 대해 PSNR, SSIM, LPIPS 등 표준 지표에서 기존 SOTA(LaMa, CTSDG, ZITS 등)를 모두 앞선다. 특히 “모든 기존 인코더를 교체했을 때도 성능이 유지된다”는 주장은 제안 방법이 인코더 설계에 독립적인 일반성을 갖는다는 강점을 시사한다.

하지만 몇 가지 한계도 존재한다. 첫째, 정규화·역정규화 연산이 추가됨에 따라 연산량과 메모리 사용량이 증가한다. 논문에서는 GPU 8대(A6000) 환경에서 1‑2일 학습 시간을 언급했지만, 경량화 모델에 적용하기엔 아직 부담이 될 수 있다. 둘째, 구조와 텍스처를 명시적으로 분리하는 전처리(에지 검출, 그레이스케일 변환)가 필요해, 복잡한 색감이나 비정형 마스크에 대한 일반화가 제한될 가능성이 있다. 셋째, 정규화 통계가 전역·국부 수준에서 고정된 형태로 사용되는데, 동적 어텐션 기반 통계 추출이 더 유연할 수 있다는 점도 고려해볼 만하다.

전반적으로, 다운샘플링 단계에서 정보 손실을 정량적으로 분석하고, 구조‑텍스처 상호 보완 메커니즘을 정규화·역정규화라는 수학적 틀로 구현한 점은 매우 의미 있다. 향후 경량화, 다양한 마스크 형태에 대한 확장, 그리고 정규화 통계의 학습 가능한 파라미터화 등이 연구 방향으로 제시될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기