다중 모델·선명도 가중치 기반 무감독 이미지 품질 추정
본 논문은 이미지 품질을 객관적으로 평가하기 위해, 이미지 패치를 비중첩으로 추출하고 ZCA 화이트닝 후 여러 개의 선형 디코더(다중 모델)를 무감독으로 학습한다. 각 디코더의 가중치를 필터로 사용하고, 필터의 kurtosis 값을 이용해 에지와 색상 필터를 구분한 뒤 에지 필터에 높은 가중치를 부여한다(Sharpness‑weighted). 이렇게 얻은 응답을 결합해 특징 벡터를 만들고, 참조 이미지와 왜곡 이미지의 벡터를 상관계수 기반으로 비…
저자: Mohit Prabhushankar, Dogancan Temel, Ghassan AlRegib
본 논문은 이미지 품질 평가(IQA) 분야에서 기존의 전제(Full‑Reference)와 무제한(Non‑Reference) 접근법이 갖는 한계를 보완하고자, 완전히 무감독적인 학습 프레임워크를 제시한다. 핵심 아이디어는 고품질 원본 이미지에서 추출한 패치를 이용해 여러 개의 선형 디코더를 독립적으로 학습하고, 각 디코더의 가중치를 이미지 품질을 측정하는 필터로 활용하는 것이다.
데이터 전처리 단계에서는 이미지의 Y‑G‑Cr 색공간을 선택한다. 인간 시각 시스템이 밝기(luminance)에 민감하고, 녹색 채널이 RGB의 정보를 가장 많이 포함한다는 기존 연구를 근거로 Y와 G 채널을 결합하고, 색채 정보를 보강하기 위해 Cr 채널을 추가한다. 이렇게 구성된 3채널 이미지를 8×8 크기의 패치로 나눈 뒤, 각 패치를 192‑차원 벡터로 변환하고 ZCA 화이트닝을 적용한다. ZCA는 각 차원의 분산을 동일하게 만들고, 인접 픽셀 간 상관관계를 제거해 학습 효율을 높인다.
선형 디코더는 입력 벡터를 은닉층으로 매핑하고 sigmoid 활성화를 적용한다. 은닉층 뉴런 수 h 를 81, 121, 169, 400, 625 로 다르게 설정해 5개의 모델을 각각 학습한다. 손실 함수는 재구성 L2 오차, KL‑다이버전스를 이용한 희소성 제약, 그리고 L2 정규화 항으로 구성된다. 희소성 파라미터 ρ=0.035와 가중치 β=5는 평균 활성값을 0에 가깝게 유지하도록 유도하며, 정규화 λ=3e‑3은 과적합을 방지한다.
학습이 완료되면 각 모델의 전방 가중치 행렬 W₁을 필터 집합으로 해석한다. 필터는 시각적으로 에지(경계)와 색상 정보를 각각 포착하는데, 이를 자동으로 구분하기 위해 kurtosis를 활용한다. 각 필터를 0‑평균·정규화한 뒤 kurtosis를 계산하고, k>5 인 경우 에지 필터, k<2 인 경우 색상 필터로 라벨링한다. 에지 필터는 인간 시각 시스템이 블러를 민감하게 감지한다는 점을 반영해 가중치 2를 부여하고, 색상 필터는 0.5 로 감소시켜 Sharpness‑weighted 특성을 부여한다.
특징 추출 과정에서는 테스트 이미지(참조 및 왜곡 이미지 모두)를 동일한 전처리와 필터 적용 과정을 거쳐 각 모델별 응답을 얻는다. 응답 값이 평균 활성값 이하인 경우 0 으로 강제하여 인간 시각 억제 메커니즘을 모방한다. 이렇게 얻어진 다중 모델의 가중 응답을 하나의 고차원 특징 벡터로 결합한다.
품질 예측은 참조 이미지와 왜곡 이미지의 특징 벡터를 10제곱 Spearman 상관계수로 비교함으로써 수행된다. 이는 상관계수의 비선형 변환을 통해 품질 점수의 전체 범위를 활용하도록 설계된 것이다.
실험은 두 개의 대표적인 FR 데이터베이스인 LIVE와 TID‑2013을 사용했다. 두 데이터베이스는 각각 29·24개의 왜곡 유형과 5 000여 개의 이미지로 구성되어 있다. 비교 대상은 PSNR‑HMA, IW‑SSIM, FSIMc, PerSIM, UNIQUE 등 11개의 최신 메트릭이며, 평가 지표는 RMS‑Error, Outlier Ratio(only TID‑2013), Pearson Correlation Coefficient(PCC), Spearman Correlation Coefficient(SCC) 및 히스토그램 차이(Earth Mover’s Distance, KL, JS, HI, L2) 등을 포함한다.
결과는 MS‑UNIQUE가 TID‑2013에서 모든 지표에서 최고 성능을 기록했으며, LIVE에서도 대부분의 지표에서 상위권을 유지함을 보여준다. 특히 PSNR‑HMA와 IW‑SSIM과 같은 기존 강력한 메트릭과 비교했을 때, MS‑UNIQUE는 RMS‑Error와 PCC에서 동등하거나 우수한 결과를 보였다. 이는 다중 모델을 통한 다중 스케일 특성 학습과 Sharpness 가중치가 품질 예측에 큰 영향을 미친다는 것을 입증한다.
논문의 주요 기여는 다음과 같다. 첫째, 왜곡 이미지와 주관적 점수 없이 대규모 무감독 학습을 통해 품질 인식 필터를 자동으로 학습한다. 둘째, 다양한 은닉 뉴런 수를 이용해 로컬(에지)과 글로벌(색상) 특성을 동시에 포착하는 다중 모델 구조를 제안한다. 셋째, kurtosis 기반 에지·색상 필터 구분과 Sharpness 가중치를 도입해 인간 시각 시스템의 선명도 감지를 반영한다. 넷째, LIVE와 TID‑2013 두 데이터베이스에서 11개 최신 메트릭과 비교해 경쟁력 있는 성능을 입증한다.
향후 연구 방향으로는 현재의 선형 디코더를 비선형 심층 신경망으로 확장하거나, 학습된 필터를 NR‑IQA(Non‑Reference IQA) 시스템에 전이 학습(transfer learning)하는 방법이 있다. 또한 실시간 영상 스트리밍이나 모바일 환경에서의 경량화 구현을 위해 모델 압축 및 하드웨어 가속 기술과 결합하는 연구도 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기