UGC 트랜스코딩을 위한 Mamba 기반 지각 손실 함수

본 논문은 비전문가가 만든 영상(UGC)의 트랜스코딩 과정에서 기존의 픽셀‑기준 손실이 초래하는 품질 저하를 극복하고자, 비정상적인 레퍼런스를 의미 정보로 활용하는 새로운 지각 손실(PT‑Loss)을 제안한다. 경량화된 Mamba 구조의 신경 품질 모델을 약한 감독(Siamese ranking)으로 학습시켜 VMAF 기반 라벨을 증류하고, 이를 DCVC와 HiNeRV 두 신경 비디오 코덱의 RDO에 결합한다. 실험 결과, PSNR 기준 최대 8…

저자: Zihao Qi, Chen Feng, Fan Zhang

UGC 트랜스코딩을 위한 Mamba 기반 지각 손실 함수
본 논문은 사용자 생성 콘텐츠(UGC) 영상이 이미 압축·편집된 상태로 플랫폼에 업로드된 뒤, 다시 트랜스코딩되는 과정에서 발생하는 품질 저하 문제를 다룬다. 기존 비디오 코덱은 레퍼런스와 재구성 영상 사이의 픽셀‑레벨 차이를 최소화하는 RDO 방식을 사용한다. 그러나 UGC에서는 레퍼런스 자체가 비정상적인 잡음·압축 아티팩트를 포함하고 있기 때문에, 이러한 방식은 오히려 원치 않는 왜곡을 그대로 복제하게 된다. 이를 해결하고자 저자들은 레퍼런스를 “절대적인 진실”이 아니라 “의미 있는 컨텍스트”로 재정의하고, 인간 시각에 기반한 지각 손실(PT‑Loss)을 도입한다. PT‑Loss는 두 부분으로 구성된다. 첫 번째는 경량 신경 품질 모델이다. 저자는 최신 구조화 상태공간 모델인 Mamba를 선택해, 2D 컨볼루션으로 공간 특징을 추출하고, Mamba 블록을 통해 시간 차원을 선택적으로 스캔한다. 이 설계는 O(L) 선형 복잡도로 장시간 의존성을 포착하면서도, Swin‑Transformer 기반 설계에 비해 연산량과 메모리 사용량을 크게 절감한다. 모델은 다중 레벨 특징을 융합해 패치‑레벨 품질 점수를 산출하고, 이를 차분 평균 풀링을 통해 클립‑레벨 점수로 변환한다. 두 번째는 약한 감독(Siamese ranking) 학습 전략이다. 252개의 고품질 원본 영상(S)을 수집하고, H.264(x264)로 QP=30,37,42 압축해 비정상 레퍼런스(R)를 만든다. 이어서 x264, AV1, VP9 등으로 다양한 QP 범위에서 트랜스코딩해 왜곡 영상(D)을 생성한다. VMAF를 사용해 S와 D 사이의 품질 점수를 라벨로 삼아, 레퍼런스 R만을 입력으로 품질 차이를 예측하도록 네트워크를 학습한다. 학습 과정에서는 싱글‑소스와 크로스‑소스 패치 쌍을 8:2 비율로 섞어 콘텐츠 불변성을 강화하고, 최종 파인튜닝 단계에서는 싱글‑소스 쌍에 집중한다. 이렇게 하면 모델은 레퍼런스의 실제 품질을 알 필요 없이, 인간이 느끼는 품질 저하를 추정할 수 있다. 학습된 PT‑Loss는 두 신경 비디오 코덱에 통합된다. 첫 번째는 DCVC(자동인코더 기반)이며, 여기서는 P‑프레임 모델의 손실 함수를 L_total = (1‑α)·L_MSE + α·L_PT 로 정의한다. α는 초기 학습 단계에서 두 손실의 평균값 비율을 이용해 자동 스케일링한다. 두 번째는 HiNeRV(INR 기반)이며, 기존 ℓ1 + MS‑SSIM 손실을 ℓ1 + α·L_PT 로 교체한다. 두 코덱 모두 레퍼런스 R와 재구성 영상 D를 입력으로 받아, PT‑Loss가 제공하는 지각적 피드백을 통해 압축 비트를 절감하면서도 시각적 품질을 향상시킨다. 실험은 UGC 전용 BVI‑UGC 데이터셋을 사용했다. 이 데이터셋은 60개의 HD 원본 영상을 15개의 카테고리로 나누고, 각 원본에 대해 QP=30,37,42 압축된 레퍼런스 3종을 제공한다. 저자는 계산 비용을 고려해 15개의 대표 원본을 선택해 실험을 진행했으며, 각 레퍼런스 품질(고·중·저)별로 BD‑rate를 측정했다. 결과는 다음과 같다. DCVC에 PT‑Loss를 적용했을 때 PSNR 기준 평균 8.46%, VMAF 기준 평균 8.64%의 비트레이트 절감 효과를 보였고, HiNeRV에서는 각각 12.89%와 10.83%의 절감 효과를 기록했다. 특히 HiNeRV는 모델 파라미터가 1.2배 증가했음에도 불구하고 큰 품질 향상을 달성했으며, 이는 PT‑Loss가 INR 기반 코덱에도 효과적임을 시사한다. 논문의 주요 기여는 네 가지이다. (1) 비정상 레퍼런스를 컨텍스트로 활용하는 새로운 지각 손실 정의, (2) Mamba 기반 경량 품질 모델 설계와 약한 감독 학습 전략, (3) 모델‑불변성을 확보해 다양한 신경 코덱에 적용 가능한 프레임워크 제공, (4) 실제 UGC 트랜스코딩 시나리오에서 실질적인 BD‑rate 절감 효과 입증. 한계점으로는 라벨링에 VMAF를 사용해 주관적 평가와의 차이가 남을 수 있고, 현재 학습 데이터가 전통 코덱 기반이라 신경 코덱 자체를 활용한 데이터 생성이 향후 연구 과제로 남는다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기