시각적 눈에 띄는 초해상도 아티팩트 검출 및 데이터셋
초록
본 논문은 초해상도(SR) 이미지에서 발생하는 아티팩트를 인간 관찰자에게 얼마나 눈에 띄는지(프롬인런스)로 정량화한다. 11가지 최신 SR 모델로 만든 1302개의 아티팩트 샘플에 크라우드소싱으로 프롬인런스 점수를 부여하고, 기존 DeSRA 데이터셋 593개에도 동일한 라벨을 추가하였다. 세 가지 기존 품질·아티팩트 지표(DISTS, ssm_jup, bd_jup)를 경량 MLP 융합기로 결합해 공간적 프롬인런스 히트맵을 예측하는 경량 회귀 모델을 제안한다. 제안 방법은 기존 바이너리 마스크 기반 검출기보다 인간 인지와 높은 상관성을 보이며, SR 모델 미세조정 시 아티팩트 억제에 효과적이다.
상세 분석
본 연구는 초해상도(SR) 이미지에서 발생하는 시각적 결함을 “프롬인런스”(human prominence)라는 새로운 차원으로 정의한다. 기존 연구는 아티팩트를 존재 여부만을 이진 마스크로 표시했으나, 실제 사용자 경험에서는 눈에 띄는 정도가 크게 다르다. 이를 해결하기 위해 저자들은 두 가지 주요 공헌을 제시한다. 첫째, 11개의 최신 SR 모델(GFPGAN, SwinIR, SUPIR 등)로부터 생성된 1302개의 아티팩트 샘플을 Open Images 데이터베이스 기반으로 수집하고, 크라우드소싱 플랫폼(Toloka.ai)을 이용해 30명씩의 참여자로부터 “해당 영역에 왜곡이 존재하는가”에 대한 투표를 받아 프롬인런스 점수를 산출하였다. 프롬인런스는 투표 비율로 정의되며, 0%는 전혀 눈에 띄지 않음, 100%는 대부분이 인지함을 의미한다. 두 번째 공헌은 기존 DeSRA 데이터셋(593개)에도 동일한 프롬인런스 라벨을 부착해, 기존 이진 마스크가 실제 인지와 얼마나 차이가 나는지 정량화한 점이다. 분석 결과, DeSRA의 절반에 가까운 아티팩트가 50% 이하의 프롬인런스를 보여, 인간이 거의 인식하지 못함을 확인했다.
프롬인런스 예측 모델은 세 가지 특징을 활용한다. (1) DISTS를 16×16 블록 단위로 계산해 텍스처 왜곡을 감지한다. (2) ssm_jup은 LDL 기반 소규모 색상 아티팩트 탐지기를 RGB 전체에 적용해 작은 스케일 왜곡을 포착한다. (3) bd_jup은 LPIPS와 ERQA를 가중합한 것으로, 블록 단위(32×32, 8×8)에서 인지 품질과 경계 보존을 동시에 평가한다. 이 세 특징을 3‑128‑128‑1 구조의 얕은 MLP에 입력해 프롬인런스 히트맵을 출력한다. 모델은 경량(≈0.2 M 파라미터)이며, 실시간 SR 방법인 RLFN을 pseudo‑GT로 사용해 full‑reference 기반 지표와도 호환성을 확보한다.
실험에서는 기존 아티팩트 검출기(LDL, DeSRA, PAL4VST)와 비교해 Pearson/Spearman 상관계수가 평균 0.12~0.15 정도 높은 성능을 보였으며, 주관적 평가에서도 인간 라벨과의 일치도가 크게 향상되었다. 또한, 제안된 프롬인런스 히트맵을 손실 함수에 가중치로 활용해 SR 모델을 미세조정했을 때, 눈에 띄는 아티팩트가 현저히 감소하면서 전반적인 인지 품질이 개선되는 것을 확인했다. 흥미롭게도 최신 고성능 SR 모델인 SUPIR조차도 프롬인런스가 높은 아티팩트를 다수 생성한다는 사실을 발견했다.
데이터셋 공개와 함께, 마스크 후처리(열림‑팽창‑폐쇄) 기법을 제안해 인간이 마스크를 직관적으로 판단하도록 돕는다. 이 과정은 프롬인런스 라벨링 정확도를 1.7%p 상승시켰다. 전체 파이프라인은 (1) SR 이미지 생성, (2) 세 특징 추출, (3) MLP 융합, (4) 히트맵 출력 순으로 구성되며, 구현 코드는 공개된 GitHub 레포지토리에서 확인 가능하다.
요약하면, 본 논문은 “프롬인런스”라는 인간 중심의 아티팩트 평가 기준을 도입하고, 이를 정량화·예측할 수 있는 경량 모델과 대규모 라벨링 데이터셋을 제공함으로써, SR 연구에서 품질 평가와 모델 개선을 보다 인간 친화적으로 전환하는 데 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기