스케일 대비 학습과 선택적 주의로 구현한 블라인드 이미지 품질 평가

스케일 대비 학습과 선택적 주의로 구현한 블라인드 이미지 품질 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CSFIQA는 인간 시각이 다중 스케일에서 품질을 인식하는 방식을 모방한다. 선택적 포커스 주의(SFA) 모듈로 불필요한 크로스‑스케일 정보를 걸러내고, 스케일 대비 학습(SCL)과 적응형 노이즈 샘플 매칭(NSM)으로 스케일 간·내 품질 차이를 명시적으로 구분한다. Transformer 기반 피처 추출 후 두 모듈을 적용해 품질‑중심 특징을 강화하고, 7개 데이터셋에서 기존 최첨단보다 평균 5~9% SRCC 향상을 달성한다.

상세 분석

CSFIQA는 기존 멀티스케일 BIQA가 안고 있던 두 가지 근본적 문제, 즉 “시각적 착시(visual illusion)”와 “정보 희석(information dilution)”을 해결하기 위해 설계된 프레임워크이다. 첫 번째 문제는 서로 다른 스케일에서 동일 이미지가 보이는 품질이 크게 달라짐에도 불구하고, 기존 방법이 모든 스케일의 특징을 단순히 평균하거나 연결해 버려 실제 인간이 느끼는 품질 차이를 무시한다는 점이다. 저자들은 LIVEFB 데이터셋의 MOS 분포를 통해 스케일 별 품질 편차를 실증하고, 이를 무시하면 모델 성능이 급격히 저하된다는 실험 결과를 제시한다.

두 번째 문제는 크로스‑스케일 특징이 중복되어 품질‑핵심 신호가 의미 없는 의미론적 정보에 가려지는 현상이다. 이를 해결하기 위해 제안된 선택적 포커스 주의(SFA) 모듈은 Transformer의 self‑attention 스코어 중 상위 k개만을 남기는 Adaptive Filtering Selector(AFS)를 적용하고, 남은 정보를 Information Concentrator를 통해 품질‑중심 특징으로 재구성한다. 이렇게 하면 인간 시각이 중요한 영역에 집중하는 메커니즘을 모델이 모방하게 된다.

스케일 대비 학습(SCL)은 intra‑scale와 inter‑scale 대비를 동시에 수행한다. MOS 기반 거리 행렬을 이용해 양성(품질이 유사한)과 음성(품질이 크게 다른) 샘플을 자동으로 선정하고, InfoNCE 손실을 통해 동일 품질의 표현을 스케일에 관계없이 일관되게, 반대로 품질 차이가 큰 경우는 멀리 떨어지도록 학습한다. 특히 γ₁=0.2, γ₂=0.7, τ=0.3이라는 하이퍼파라미터 설정을 통해 양성·음성 경계가 명확히 정의된다.

노이즈 샘플 매칭(NSM)은 동일 이미지 내에서 스케일에 따라 품질 차이가 극심한 패치 쌍을 찾아 추가적인 대비 학습에 활용한다. 작은 패치와 그를 포함하는 큰 패치 사이의 코사인 유사도를 계산하고, 가장 낮은 유사도를 보이는 쌍을 음성 샘플로 지정한다. 이는 “시각적 착시”를 방지하고, 미세한 왜곡이 큰 스케일에서는 무시되지 않도록 만든다.

전체 파이프라인은 이미지 → 다중 스케일 패치 → Transformer Encoder → SCL+NSM → 최종 Encoder 출력 → SFA → Alignment Layer → Decoder 로 흐른다. 손실 함수는 회귀 손실(L₁)과 대비 손실(L_scale, L_noise)의 가중합으로 구성되어, 품질 예측 정확도와 대비 학습을 동시에 최적화한다.

실험에서는 LIVE, CSIQ, TID2013, LIVEFB, LIVEC 등 7개 데이터셋에서 SRCC와 PLCC를 평가했으며, 특히 LIVEFB에서 기존 최고 성능 대비 8.8% SRCC 향상을 기록했다. Ablation study에서는 SFA, SCL, NSM 각각을 제거했을 때 성능이 현저히 떨어지는 것을 확인해 각 모듈의 기여도를 입증한다.

하지만 몇 가지 한계도 존재한다. 첫째, 스케일 변환을 위한 이미지 리사이징 과정이 실제 촬영 환경에서 발생하는 다중 해상도와 완전히 일치하지 않을 수 있다. 둘째, Transformer 기반 구조는 연산량이 크며, 특히 고해상도 이미지에 적용할 경우 메모리 부담이 커진다. 셋째, NSM에서 음성 샘플을 “가장 유사하지 않은” 쌍으로 정의하는 것이 경우에 따라 과도한 대비를 유발해 학습이 불안정해질 가능성이 있다. 향후 연구에서는 경량화된 ViT 변형, 동적 스케일 선택 메커니즘, 그리고 인간 시각 실험을 통한 정량적 검증을 추가하면 더욱 실용적인 시스템이 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기