정보 손실 최소화 플러터 기반 다중 이미지 복원 프레임워크 PUT
초록
PUT은 기존 트랜스포머 기반 이미지 인페인팅이 픽셀을 토큰으로 사용하면서 발생하는 저해상도 다운샘플링·양자화 정보 손실을 해결한다. 비중첩 패치 인코더와 이중 코드북을 갖는 P‑VQVAE로 고해상도 특징을 추출하고, 양자화되지 않은 연속 특징을 입력으로 받는 UQ‑Transformer가 마스크 영역을 예측한다. 다중 스케일 가이드 디코더가 원본 비마스크 영역을 그대로 유지하면서 정교한 복원을 수행한다. 실험 결과, 대규모 마스크와 복잡한 데이터셋에서 기존 방법을 크게 앞선 이미지 품질을 달성한다.
상세 분석
본 논문은 플러터(Transformer) 기반 다중 이미지 인페인팅에서 두 가지 근본적인 정보 손실 원인을 정확히 짚어낸다. 첫째, 연산량을 줄이기 위해 입력 이미지를 저해상도로 다운샘플링하면 픽셀 단위 토큰 수는 감소하지만, 고주파 디테일과 마스크 경계 정렬이 손상된다. 둘째, 256³(≈1.6억)개의 RGB 색을 수백 개의 양자화 색상으로 압축하는 VQ‑VAE 방식은 토큰 자체가 원본 정보를 크게 축소한다. 이러한 손실은 이후 CNN 기반 업샘플링·리파인 단계에서도 복구가 어려워, 최종 복원 품질을 제한한다.
PUT은 이 문제를 ‘패치 기반 벡터 양자화 변분 오토인코더(P‑VQVAE)’와 ‘비양자화 트랜스포머(UQ‑Transformer)’라는 두 축으로 해결한다. P‑VQVAE는 입력 이미지를 8×8 비중첩 패치로 나누어 각 패치를 선형 레이어로 직접 매핑함으로써, 다운샘플링 없이도 토큰 수를 제한한다. 비중첩 설계는 마스크와 비마스크 패치가 서로 섞이는 현상을 방지해, 인코더가 손상되지 않은 영역을 정확히 보존하도록 만든다.
또한 이중 코드북(D‑Codes)은 마스크된 패치와 비마스크된 패치를 각각 별도의 코드북(e, e′)에 양자화한다. 이는 마스크 영역에 특화된 표현을 학습하게 하여, 트랜스포머가 마스크 토큰을 예측할 때 더 풍부한 컨텍스트를 제공한다. 양자화된 토큰은 트랜스포머의 학습 목표가 되지만, 입력으로는 양자화되지 않은 연속 특징 벡터 ˆf를 그대로 사용한다. 즉, UQ‑Transformer는 ‘입력은 연속, 출력은 양자화’라는 비대칭 구조를 취해, 입력 단계에서 발생하는 정보 손실을 원천 차단한다.
UQ‑Transformer 자체는 기존 이미지 인페인팅 트랜스포머와 동일한 셀프‑어텐션·포지션 인코딩을 유지하면서, 토큰 수가 패치 수준이므로 연산 복잡도는 크게 증가하지 않는다. 마스크 토큰을 예측한 뒤, 해당 토큰에 대응하는 코드북 벡터를 복원해 디코더에 전달한다.
디코더인 MSG‑Dec(Multi‑Scale Guided Decoder)은 두 갈래 구조를 갖는다. 메인 브랜치는 양자화된 벡터를 역컨볼루션으로 복원하고, 레퍼런스 브랜치는 원본 마스크 이미지에서 다중 스케일 특징을 추출한다. 두 브랜치를 ‘Mask Guided Addition(MGA)’ 모듈로 결합해, 비마스크 영역은 원본 픽셀을 그대로 유지하면서 마스크 영역만 정교하게 채워진다. 이 설계는 경계 정렬 오류를 최소화하고, 고해상도 디테일을 보존한다.
실험에서는 FFHQ, Places2, ImageNet 등 다양한 규모와 복잡도의 데이터셋에서 기존 CNN 기반 및 트랜스포머 기반 방법을 모두 능가한다. 특히 대형 마스크(>50% 영역)와 복잡한 장면에서 PSNR/SSIM 및 LPIPS 지표가 현저히 개선되었으며, 사용자 설문에서도 시각적 품질이 우수함을 확인했다.
한계점으로는 패치 크기와 코드북 크기 선택이 성능에 민감하고, 대규모 코드북 학습이 메모리 요구량을 증가시킨다는 점이 있다. 또한, 양자화된 토큰을 목표로 삼기 때문에 완전한 연속 표현을 얻지는 못한다. 향후 연구에서는 동적 패치 분할, 하이퍼파라미터 자동 튜닝, 그리고 완전 연속 디코딩을 통한 추가 품질 향상이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기