심리물리학 기반 저수준 시각 측정으로 품질 지표 평가
초록
본 논문은 전통적 주관적 평가를 보완하기 위해 대비 감도·마스킹·매칭 등 인간 시각의 저수준 특성을 재현한 합성 자극을 이용한 테스트를 제안한다. 34개의 전/후 참조 영상·이미지 품질 지표를 이 테스트에 적용해 정량적 정렬점수와 RMSE를 산출하고, LPIPS·MS‑SSIM이 마스킹을 잘 포착하는 반면 SSIM은 고주파에 과도하게 민감함을 확인한다. 대부분의 지표가 초임계 대비 일정성을 모델링하지 못함을 밝혀, 저수준 시각 모델을 명시적으로 포함한 지표 설계의 필요성을 제시한다.
상세 분석
이 연구는 영상·이미지 품질 지표가 인간 시각과 얼마나 일치하는지를 평가하기 위해, 인간 시각의 기본적인 저수준 메커니즘을 직접 측정하는 심리물리학 실험을 모방한 일련의 합성 테스트를 설계하였다. 테스트는 크게 두 그룹으로 나뉜다. 첫 번째는 ‘검출 테스트’로, 균일 배경에 가버(Gabor) 패치나 시간 변조 디스크를 삽입해 대비·주파수·시간 변조에 따른 검출 임계면을 만든다. 여기서는 인간의 대비 감도 함수(CSF)와 마스킹 곡선에 대한 정량적 일치를 ‘정렬 점수(Alignment Score)’로 측정한다. 두 번째는 ‘매칭 테스트’로, 특정 주파수·색상 방향에서 인간이 인지하는 대비가 동일하도록 두 자극의 대비를 맞추는 과정을 시뮬레이션한다. 이 경우는 매칭된 대비값 사이의 차이를 RMSE로 평가한다.
논문은 34개의 전‑참조(full‑reference) 지표를 대상으로 위 테스트를 수행했으며, 주요 결과는 다음과 같다.
-
대비 감도(Contrast Detection)
- HDR‑VDP‑3, MS‑SSIM, VMAF 등 일부 고급 지표가 인간 CSF와 높은 정렬 점수를 보였지만, 전통적인 PSNR·SSIM은 낮은 점수를 기록했다. 특히 SSIM은 고주파 영역에서 과도하게 민감해 인간의 실제 검출 임계와 크게 차이났다.
-
대비 마스킹(Contrast Masking)
- LPIPS(Alex)와 MS‑SSIM은 위상 일관 마스크와 위상 무관 마스크 모두에서 인간 마스킹 곡선과 높은 상관성을 보였다. 반면, 전통적인 구조 기반 지표(GMSD, VIFp 등)는 마스킹 효과를 충분히 반영하지 못했다.
-
플리커 검출(Flicker Detection)
- 시간 변조에 대한 테스트는 비디오 전용 지표(VMAF, SpeedQA, FUNQUE)에서만 의미 있는 점수를 얻었으며, 정적 이미지 지표는 적용이 불가능했다.
-
대비 매칭(Contrast Matching)
- 초임계 대비 일정성(constancy)을 평가한 결과, 대부분의 지표가 인간 데이터와 큰 편차를 보였다. 특히 색상 매칭 테스트에서 색 차이 지표(CIEDE2000, ICtCp 등)는 일정 수준의 일치를 보였지만, 영상 품질 지표는 색상 방향에 따라 점수가 크게 변동했다.
-
딥러닝 기반 지표
- LPIPS와 DISTS는 마스킹과 검출에서는 비교적 좋은 성능을 보였으나, 매칭 테스트에서는 일관성이 부족했다. WaDIQaM은 전반적으로 낮은 정렬 점수를 기록했다.
이러한 결과는 ‘품질 지표가 인간 시각의 저수준 특성을 얼마나 내재하고 있는가’를 정량적으로 드러내며, 기존의 MOS/DMOS 기반 상관 분석만으로는 포착하기 어려운 지표의 구조적 강점·약점을 명확히 보여준다. 특히, 저수준 시각 모델(예: CSF, 마스킹 모델)을 명시적으로 설계에 포함시키면, 인간 인지와의 정합성을 크게 향상시킬 수 있음을 실험적으로 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기