계층적 삼중 사전 가이드 확산을 통한 통합 이미지 복원

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TPGDiff는 이미지 복원을 위해 손상, 구조, 의미 세 가지 사전을 전체 확산 과정에 계층적으로 배치한다. 의미 사전은 깊은 UNet 레이어에, 구조 사전은 얕은 레이어에, 손상 사전은 모든 타임스텝에 걸쳐 적용해 고품질 복원을 실현한다. 의미 사전은 교사‑학생 증류로 강인하게 학습하고, 구조 사전은 깊이·세그멘테이션·DoG 토큰을 집계한다. 다양한 단일·다중 손상 벤치마크에서 기존 최첨단 방법들을 능가한다.

상세 분석

TPGDiff는 기존 확산 기반 복원 모델이 사전을 일관되게 삽입하는 한계를 극복하기 위해 “계층적 사전 조정” 전략을 도입한다. 먼저, 손상 추출기(E_deg)는 입력 저품질 이미지에서 손상 유형을 추정해 시점‑별 가중치를 제공함으로써 전체 역확산 과정에서 손상에 대한 적응적 제어를 가능하게 한다. 구조 사전은 깊이 지도, 세그멘테이션 마스크, Difference‑of‑Gaussians(DOG) 세 가지 모달리티를 활용한다. 각각은 경량 인코더와 모달리티 임베딩을 거쳐 토큰 시퀀스로 변환되고, 구조 토큰 집계기(STA)에서 학습 가능한 라텐트 토큰과 교차‑어텐션을 통해 중복을 제거하고 압축된 구조 사전(z_struct)을 생성한다. 이 사전은 얕은 UNet 레이어에 구조 어댑터를 통해 요소‑와이즈 덧셈·곱셈 방식으로 주입되어 저수준 형태 정보를 직접 보강한다. 의미 사전은 고품질 이미지에서 사전 학습된 교사 인코더(E_T)를 이용해 교사‑학생 증류 손실(L_sem)을 최소화함으로써 손상에 강인한 의미 표현(z_sem)을 얻는다. 증류된 의미 사전은 깊은 레이어의 크로스‑어텐션에 컨텍스트(C)로 제공되어 전역 내용 일관성을 유지한다. 마지막으로, 역확산 방정식 d x = h_θt(μ−x)−σ_t² s_θ(x,t;μ,z_sem,z_struct,z_deg) dt + σ_t dŵ 에서 세 사전이 모두 조건으로 포함되어, 각 타임스텝에서 손상·구조·의미 정보를 동시에 활용한다. 실험에서는 단일 손상(노이즈, 블러, 디블러 등)과 복합 손상(노이즈+블러+저조도 등) 모두에서 PSNR/SSIM 및 인간 주관 평가에서 기존 Diffusion‑기반 복원 모델(MPerceiver, DiffRes 등)과 전통적 CNN 기반 전일원 모델을 크게 앞선다. 특히, 의미 사전을 깊은 레이어에만 배치함으로써 구조 흐림을 방지하고, 구조 사전을 얕은 레이어에 집중시켜 세밀한 경계와 텍스처를 복원한다는 점이 핵심 기여이다. 다만, 외부 사전(깊이·세그멘테이션·DoG) 추출에 사전 학습된 모델을 필요로 하며, 실시간 응용에서는 추가 연산 비용이 발생할 수 있다.

계층적 삼중 사전 가이드 확산을 통한 통합 이미지 복원

초록

상세 분석

댓글 및 학술 토론

의견 남기기