실세계 초해상도를 위한 계층적 열화 표현 플러그인
초록
이 논문은 실제 세계의 복잡하고 알려지지 않은 열화(화질 저하)를 처리하는 초해상도 기술인 ZePHiR를 소개합니다. 핵심은 HD-CLIP라는 플러그인 모듈로, 저화질 이미지에서 의미 정보와 순서 관계를 가진 열화 강도 정보를 분리하여 추출합니다. 이 정보를 Stable Diffusion 모델에 통합하는 새로운 가이던스 방식(CFPG)을 제안하여, 별도의 학습 없이도 다양한 초해상도 프레임워크의 디테일 복원력과 현실감을 크게 향상시킵니다.
상세 분석
본 논문이 해결하고자 하는 핵심 문제는 실제 세계 초해상도(Real-ISR)에서의 ‘미지의 복합 열화’ 처리입니다. 기존 Diffusion 기반 방법들은 열화 강도를 수치적으로 이해하지 못하는 CLIP 텍스트 인코더에 의존하거나, 열화 수준을 알고 있다고 가정하는 한계가 있었습니다.
이에 저자들이 제안한 HD-CLIP(Hierarchical Degradation CLIP)는 두 가지 혁신적 접근을 취합니다. 첫째, ‘구성적 순서 텍스트 임베딩(Composition Ordinal Text Embedding)‘입니다. 이는 “Blur with sigma 1.0"과 같은 텍스트 설명을, ‘열화 유형(Blur)‘에 대한 기본 임베딩, 정규화된 강도(1.0)에 대한 순서 임베딩, 그리고 유형별로 학습되는 이동 임베딩의 합으로 구성합니다. 특히 순서 임베딩은 트랜스포머의 위치 인코딩을 변형하여, 강도 값 간의 순위 관계(예: sigma 2.0이 1.0보다 강하고 3.0보다 약함)를 연속적 공간에 자연스럽게 매핑합니다.
둘째, ‘국소 보간 회귀(Local Interpolation Regression)’ 전략입니다. HD-CLIP는 학습 시 제한된 discrete 강도 값(예: sigma 0.5, 1.0, 2.0)만을 보지만, 테스트 시에는 보지 못한 중간 강도(예: sigma 0.7)를 가장 가까운 두 임베딩 간의 spherical linear interpolation(SLERP)을 통해 추정합니다. 이를 통해 열화 강도의 연속적 스펙트럼을 이해할 수 있게 됩니다.
이렇게 추출된 의미 임베딩과 열화 임베딩을 Diffusion 모델에 효과적으로 주입하기 위해 ‘Classifier-free Projection Guidance(CFPG)‘를 제안합니다. 기존 CFG가 조건부/무조건부 노이즈 예측의 선형 보간에 그친다면, CFPG는 의미 임베딩을 조건부 예측에 투영(projection)하여 내용 보존을 강화하고, 열화 임베딩을 무조건부 예측에 반대 방향으로 투영하여 원치 않는 잡음/환상을 억제합니다. 이는 하나의 가이던스 스케일로 두 가지 다른 정보(의미/열화)를 조절할 수 있는 효율적인 메커니즘입니다.
실험 결과, ZePHiR는 다양한 Real-ISR 데이터셋에서 PSNR, LPIPS, FID 등 객관적 지표와 주관적 화질 모두에서 기존 방법들을 크게 앞섰습니다. 특히 열화 강도가 변하거나 혼합된(mixed) 시나리오에서 강건한 성능을 보였으며, DiffBIR, SeeSR 등 다른 Diffusion 백본에 플러그인으로 적용되어도 일관된 성능 향상을 보였습니다. 이는 HD-CLIP가 단순한 조건부 생성이 아닌, 열화의 구조화된 표현 학습을 통해 Diffusion 모델의 복원 과정에 보다 정확하고 풍부한 제어 신호를 제공할 수 있기 때문입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기