HEVC 포스트프로세싱을 위한 파티션 인식 적응 스위칭 신경망

본 논문은 HEVC 인코더가 생성하는 코딩 유닛(CU) 파티션 정보를 마스크 형태로 활용하고, 이를 디코딩된 프레임과 결합한 파티션‑인식 CNN을 제안한다. 또한, 영상 내 패치별 왜곡 정도와 콘텐츠 차이를 고려해 여러 개별 CNN을 동적으로 선택하는 적응‑스위칭 신경망(ASN)을 설계하였다. 두 기법을 결합한 시스템은 기존 단일 CNN 기반 포스트프로세싱 대비 PSNR 및 시각적 품질에서 유의미한 향상을 보이며, 대규모 학습 데이터셋(202,…

저자: Weiyao Lin, Xiaoyi He, Xintong Han

HEVC 포스트프로세싱을 위한 파티션 인식 적응 스위칭 신경망
본 논문은 최신 비디오 압축 표준인 HEVC(High Efficiency Video Coding)의 포스트프로세싱 성능을 크게 향상시키기 위해 두 가지 주요 기술을 제안한다. 첫 번째는 ‘파티션‑인식 CNN(Partition‑aware Convolutional Neural Network)’이며, 두 번째는 ‘적응‑스위칭 신경망(Adaptive‑Switching Neural network, ASN)’이다. 1. **배경 및 문제점** HEVC는 블록‑단위 변환·양자화 과정을 통해 높은 압축 효율을 달성하지만, 그 결과 블록 경계에서의 블로킹, 링잉, 블러링 등 다양한 시각적 아티팩트가 발생한다. 기존의 딥러닝 기반 포스트프로세싱 방법들은 대부분 디코딩된 프레임 자체만을 입력으로 사용했으며, 인코더가 제공하는 파티션(CU) 정보와 같은 사전 지식을 활용하지 못했다. 이는 특히 파티션 크기가 다양하고, 같은 프레임 내에서도 왜곡 정도가 크게 달라지는 경우에 한계가 된다. 2. **파티션‑인식 CNN** - **마스크 생성**: 인코더가 출력하는 CU 파티션 정보를 두 가지 방식으로 마스크화한다. * **로컬 평균 마스크(Local Mean Mask)**: 각 파티션 블록 내부의 디코딩 픽셀 평균값으로 블록을 채워, 블록 크기와 평균 밝기 차이를 강조한다. * **경계 마스크(Boundary Mask)**: 파티션 경계선에만 값 1을 부여하고 나머지는 0으로 채워, 블록 경계 위치를 명시적으로 표시한다. - **마스크‑프레임 결합**: 세 가지 결합 전략을 실험했으며, ‘Add‑based Fusion’(마스크와 프레임 특징을 별도 추출 후 요소‑와이즈 합) 방식이 가장 우수했다. - **네트워크 구조**: 두 개의 입력 스트림(디코드 프레임, 마스크)을 각각 3개의 Conv‑BN‑ReLU 레이어로 특징을 추출하고, 8개의 Residual Block(각 Block당 2×3×3 Conv)으로 깊은 특징을 학습한다. 이후 3개의 Conv 레이어를 통해 특징 강화, 매핑, 재구성을 수행한다. 손실 함수는 원본과 복원 이미지 간 MSE이며, PSNR를 직접 최적화한다. 3. **적응‑스위칭 스킴(ASN)** - **구성**: 하나의 글로벌 CNN(CNN₃(G))과 세 개의 로컬 CNN(CNN₀(L), CNN₁(L), CNN₂(L))을 준비한다. - **패치‑클래스 정의**: 영상 내 각 패치를 사전 정의된 클래스(예: 파티션 크기, 텍스처 복잡도)로 구분한다. - **Iterative Training Procedure**: 1) 전체 데이터로 각 CNN을 초기 학습한다. 2) 현재 모델들 중 PSNR가 가장 높은 CNN을 각 패치에 할당한다. 3) 할당된 패치 집합을 해당 CNN에 재학습시켜 특화한다. 4) 2‑3 과정을 여러 번 반복해 로컬 CNN이 각각 특정 패치 군집에 최적화되도록 만든다. - **비트스트림에 스위치 플래그 삽입**: 인코더는 각 패치에 대해 선택된 CNN의 인덱스를 2비트(또는 적절한 비트 수)로 인코딩해 전송한다. 디코더는 이 플래그를 읽어 해당 패치에 맞는 CNN을 적용한다. 이 과정은 연산량이 적고 실시간 적용이 가능하다. 4. **실험 설정 및 결과** - **데이터셋**: 202,251개의 학습 샘플(다양한 시퀀스, QP)과 표준 HEVC 테스트 시퀀스를 사용했다. - **비교 대상**: 기존 대표적인 포스트프로세싱 CNN인 ARCNN, VRCNN, DCAD, QECNN 등을 기준으로 삼았다. - **성능**: 파티션‑인식 CNN만 적용했을 때 평균 0.25~0.35 dB PSNR 향상이 있었으며, ASN을 추가하면 전체 0.4~0.55 dB까지 상승했다. 특히 QP=37 같은 고압축 상황에서 블록 경계와 링잉 감소가 눈에 띄었다. 시각적 평가에서도 주관적 품질이 크게 개선되었다. - **복합 효과**: 파티션 마스크가 제공하는 위치·크기 정보를 통해 CNN이 아티팩트가 집중되는 영역을 정확히 학습하고, ASN이 패치별 특성을 반영해 최적의 필터를 선택함으로써 두 기법이 상호 보완적인 효과를 나타낸다. 5. **기여 및 의의** - **기술적 기여**: (1) 인코더 파티션 정보를 마스크화해 CNN에 명시적으로 제공, (2) 다중 CNN을 동적으로 스위칭하는 적응형 프레임워크, (3) 패치‑클래스 기반 반복 학습 전략. - **실용적 가치**: 비트스트림에 최소한의 플래그만 추가하면 되므로 기존 HEVC 파이프라인에 손쉽게 통합 가능하고, 디코더 측 연산량 증가가 제한적이다. - **데이터 공개**: 연구 재현성을 위해 대규모 학습 데이터셋을 공개함으로써 향후 연구자들의 접근성을 높였다. 결론적으로, 본 논문은 HEVC 포스트프로세싱에 파티션 정보를 활용한 새로운 입력 방식과, 영상 내 이질성을 고려한 다중 CNN 스위칭 메커니즘을 결합해 기존 방법 대비 현저한 품질 향상을 달성하였다. 이는 차세대 비디오 코덱 및 실시간 스트리밍 서비스에서 압축 아티팩트를 최소화하는 실용적인 솔루션으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기