다중스케일 변환기 기반 이미지 품질 평가 모델 MS SCANet

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MS‑SCANet은 두 개의 스케일 브랜치를 이용해 이미지의 미세·거친 특징을 동시에 학습하고, 공간·채널 어텐션과 교차‑브랜치 어텐션을 결합한 변환기 구조이다. 또한 크로스‑브랜치 일관성 손실과 적응형 풀링 일관성 손실을 도입해 다중스케일 특징 융합 시 공간 정보를 보존한다. KonIQ‑10k, LIVE, LIVE‑Challenge, CSIQ 등 네 가지 벤치마크에서 기존 최첨단 방법들을 앞서며 높은 PLCC·SROCC 값을 기록한다.

상세 분석

MS‑SCANet은 기존 단일‑스케일 비전 트랜스포머가 전역 컨텍스트를 포착하면서도 연산량이 급증한다는 한계를 다중‑스케일 윈도우 기반 어텐션으로 해결한다. 두 개의 브랜치는 각각 16×16과 32×32 패치 크기를 사용해 입력 이미지를 서로 다른 해상도로 분할하고, 각 브랜치 내부에서는 Swin‑Transformer와 유사한 윈도우‑셀프 어텐션을 적용해 O(N²·w·d) 수준의 복잡도로 연산한다. 여기서 N은 패치 수, w는 윈도우 크기, d는 임베딩 차원이다. 이렇게 하면 전역 어텐션 대비 약 5배 이상 FLOPs를 절감하면서도 다중‑스케일 정보를 유지한다.

공간 어텐션은 각 윈도우 내에서 패치 간 상관관계를 강화하고, 채널 어텐션은 Squeeze‑and‑Excitation 구조를 차용해 전역 평균 풀링 후 1×1 컨볼루션 두 단계로 채널 중요도를 재조정한다. 두 어텐션을 병렬로 적용함으로써 로컬 텍스처와 전역 구조를 동시에 강조한다.

가장 혁신적인 요소는 교차‑브랜치 어텐션이다. 기존 CrossViT가 CLS 토큰과 패치 토큰을 교차 연결한 것과 달리, MS‑SCANet은 서로 다른 스케일의 패치 토큰을 직접 Q‑K‑V 매트릭스로 변환해 상호 어텐션을 수행한다. 수식 (5)에서 보듯, 짧은 브랜치(Q_s, K_s, V_s)와 긴 브랜치(Q_l, K_l, V_l) 간의 어텐션 가중치를 각각 계산해 두 방향의 피처를 합산한다. 이 과정은 미세 디테일과 거친 구조가 동시에 존재하는 왜곡을 효과적으로 포착하도록 설계되었다.

손실 함수 측면에서는 기본 L1 손실에 두 개의 일관성 손실을 가중치 α, β(각 0.5)와 함께 결합한다. 크로스‑브랜치 일관성 손실(L_CB)은 두 브랜치 출력 간 MSE를 최소화해 스케일 간 특징 분포를 정렬한다. 적응형 풀링 일관성 손실(L_AP)은 다운샘플링 전후의 피처 맵을 비교해, 선형·양선형 보간이 초래할 수 있는 왜곡을 방지하고, 풀링 과정이 내용에 따라 가변적으로 적용되도록 한다. 실험 결과(Table III)에서 두 손실을 모두 적용했을 때 PLCC·SROCC가 가장 크게 향상되는 것을 확인할 수 있다.

성능 평가에서는 KonIQ‑10k, LIVE, LIVE‑Challenge, CSIQ 네 데이터셋에 대해 5‑fold 교차 검증 및 교차‑데이터셋 테스트를 수행했다. Table I에서 MS‑SCANet은 대부분의 경우 상위 3위 안에 들었으며, 특히 LIVE‑Challenge에서 가장 높은 SROCC(0.923)을 기록했다. Ablation Study(Table II)에서는 단일 브랜치·단일 어텐션보다 다중 브랜치·이중 어텐션이 현저히 우수함을 보여준다. 또한 교차‑데이터셋 실험(Figure 3)에서 KonIQ‑10k→LIVE‑C 조합에서 낮은 변동성을 보이며 일반화 능력이 뛰어남을 입증한다.

계산 효율성 측면에서는 전체 FLOPs가 토큰당 14.7 M으로, Swin‑Transformer(71.8 M), TRIQ(92.9 M), ViT(185.7 M)보다 현저히 낮다. 이는 윈도우 기반 어텐션과 적은 패치 수, 작은 임베딩 차원(256) 덕분이다. 따라서 고해상도 이미지에서도 실시간에 가까운 추론이 가능할 것으로 기대된다.

종합하면, MS‑SCANet은 (1) 다중‑스케일 윈도우 어텐션으로 연산량을 억제하면서 전역·국부 정보를 모두 확보, (2) 공간·채널 어텐션을 병렬 적용해 특징 강조, (3) 교차‑브랜치 어텐션으로 스케일 간 상호 보완성을 극대화, (4) 두 종류의 일관성 손실로 피처 통합 시 공간·스케일 일관성을 유지한다는 네 가지 핵심 설계가 서로 시너지 효과를 내어 현재 NR‑IQA 분야에서 가장 경쟁력 있는 모델 중 하나로 자리매김한다. 향후 비디오 품질 평가로 확장하거나, 경량화된 모바일 버전 개발이 자연스러운 다음 단계가 될 것이다.

다중스케일 변환기 기반 이미지 품질 평가 모델 MS SCANet

초록

상세 분석

댓글 및 학술 토론

의견 남기기