동적 포인트 클라우드 압축 품질 향상을 위한 블라인드 강화 모델

** 포인트 클라우드는 3차원 공간에 존재하는 수많은 점들의 집합으로, 각 점은 좌표와 색상·반사율 등 속성을 가진다. 이러한 데이터는 자율주행, 가상현실, 문화유산 보존 등 다양한 분야에서 핵심 역할을 하지만, 원시 형태는 용량이 방대해 효율적인 압축이 필수적이다. MPEG가 제시한 Geometry‑Based Point Cloud Compression(G‑PCC) 표준은 기하학을 무손실, 속성을 손실압축하는 방식을 채택했으며, 실제 서비스에서도 널리 사용된다. 그러나 손실압축 과정에서 색상 왜곡, 블록 현상, 경계 흐림 등 눈에 띄는 아티팩트가 발생한다. 기존 연구는 크게 전통적 필터 기반 방법과 딥러닝 기반 방법으로 나뉜다. 전통적 방법은 Kalman·Wiener 필터 등 선형 모델에 의존해 제한된 성능을 보이며, 딥러닝 기반 방법은 Graph Convolution, Sparse Convolution 등을 활용해 구조적 정보를 학습한다. 하지만 이들 모두 압축 전후의 QP(또는 비트레이트) 정보를 사전에 알아야 하며, QP마다 동일한 구조의 모델을 별도 학습해야 하는 “비블라인드” 한계가 있다. 실제 전송·스트리밍 환경에서는 압축 파라미터가 동적으로 변하고, 수신 측에서 이를 정확히 알기 어려워 이러한 접근법은 실용성이 떨어진다. 본 논문은 이러한 문제점을 해결하고자 **Blind Quality Enhancement (BQE)** 라는 새로운 프레임워크를 제안한다. BQE는 압축된 동적 포인트 클라우드 시퀀스(시간 윈도우) 전체를 입력으로 받아, 현재 프레임(목표 프레임)의 속성을 품질 추정 없이도 자동으로 복원한다. 핵심 아이디어는 (1) **시간적 연관성 활용**, (2) **다중 왜곡 레벨에 대한 공동 특징 학습**, (3) **품질 추정 기반 가중 융합**이다. ### 1. 전체 구조 BQE는 두 개의 주요 브랜치로 구성된다. - **Joint Progressive Feature Extraction Branch**: 전체 시간 윈도우(예: R=2 → 5프레임)를 처리한다. 먼저 **Recoloring‑based Motion Compensation (RMC)** 모듈을 통해 각 참조 프레임의 색상 정보를 현재 프레임의 기하학 좌표에 재매핑한다. 이는 전통적인 모션 벡터 추정 없이도 정확한 공간 정렬을 가능하게 하며, “가상 참조 프레임”을 생성한다. 그 다음 **Temporal Correlation‑guided Cross‑Attention (TCCA)** 모듈이 현재 프레임을 Query, 정렬된 참조 프레임들을 Key·Value 로 변환해 다중 헤드 Attention을 수행한다. 여기서는 **Neighborhood‑Aware (NA) Positional Encoding**을 사용해 로컬 기하학 정보를 명시적으로 인코딩함으로써, 포인트 클라우드의 비정형 구조에서도 효과적인 시간‑공간 상관관계 학습이 가능하도록 한다. TCCA의 출력은 **F₀** 라는 통합 특징 맵이며, 이어지는 **Progressive Feature Extraction** 단계에서 여러 레벨(예: 저, 중, 고 왜곡)로 점진적으로 분해한다. 각 레벨은 서로 다른 QP 구간에 대응하도록 설계되어, “왜곡 레벨 별 특징 맵”을 자동으로 생성한다. - **Adaptive Feature Fusion Branch**: 현재 프레임만을 입력으로 받아 **Quality Estimation (QE)** 모듈을 통해 품질 벡터 **w** (가중치 분포)를 예측한다. QE는 노‑레퍼런스 품질 평가 네트워크와 유사한 구조이며, 입력 프레임의 통계·텍스처 정보를 기반으로 실제 왜곡 정도를 추정한다. 예측된 **w**는 Progressive Feature Extraction 단계에서 얻은 다중 레벨 특징에 가중합을 수행하는 **Adaptive Fusion**에 전달된다. 최종적으로 가중합된 특징을 디코더에 통과시켜 향상된 색상 속성 **ĤPᵗ** 를 생성한다. ### 2. 핵심 모듈 상세 - **RMC**: 기존의 광류 기반 모션 보정은 포인트 클라우드의 불규칙한 샘플링과 깊이 변동으로 인해 부정확한 결과를 초래한다. RMC는 “재색상”이라는 개념을 도입해, 각 참조 프레임의 색상 값을 현재 프레임의 좌표에 직접 매핑한다. 이는 색상 정보만을 이동시키는 것이므로, 기하학 손실이 없는 상황(논문에서는 기하학을 무손실 압축 가정)에서 정확한 정렬을 보장한다. - **TCCA**: 전통적인 시계열 Attention은 영상에 적용될 때는 프레임 간 정렬이 전제되지만, 포인트 클라우드에서는 좌표가 서로 다르다. 따라서 TCCA는 RMC로 정렬된 가상 프레임을 입력으로 받아, Query‑Key‑Value 매핑을 수행한다. 여기서 **NA Positional Encoding**은 각 포인트의 로컬 이웃 좌표 차이를 임베딩에 더해, 공간적 관계를 명시적으로 학습한다. 이렇게 하면 Attention이 “같은 위치에 가까운 포인트”에 더 높은 가중치를 부여하게 된다. - **Progressive Feature Extraction**: TCCA 출력 **F₀** 를 여러 단계의 3D Conv(또는 Sparse Conv) 레이어에 통과시켜, 점점 더 추상적인 특징을 추출한다. 각 단계마다 “왜곡 레벨”을 가정하고, 해당 레벨에 특화된 채널을 유지한다. 결과적으로 모델은 “저 QP → 고 QP” 순서의 특징 스페이스를 학습하게 된다. - **QE & Adaptive Fusion**: QE는 현재 프레임의 색상 히스토그램, 텍스처 복잡도, 그리고 TCCA‑F₀ 의 통계량을 입력으로 받아, Softmax‑형태의 가중치 **w** 를 출력한다. **w** 는 각 왜곡 레벨 특징에 곱해진 뒤 합산되어 최종 복원 특징을 만든다. 이 과정은 “블라인드” 즉 사전 QP 정보를 전혀 사용하지 않으며, 모델 자체가 품질을 추정한다. ### 3. 실험 및 결과 - **데이터 및 설정**: MPEG G‑PCC 테스트 모델 category13 버전 28을 사용해 다양한 QP(예: 22, 27, 32, 37)에서 압축된 동적 포인트 클라우드 시퀀스를 생성하였다. 시간 윈도우는 R=2(5프레임)로 설정했고, 학습은 Adam 옵티마이저와 L1+L2 혼합 손실을 사용하였다. - **정량적 성능**: Luma, Cb, Cr 각각에 대해 평균 PSNR 향상이 0.535 dB, 0.403 dB, 0.453 dB였으며, BD‑Rate 감소는 -17.4 %, -20.5 %, -20.1 %였다. 이는 기존 비블라인드 모델(각 QP 별 별도 학습)과 비교해 동일하거나 더 나은 성능을 보이며, 모델 파라미터는 하나만 필요하므로 저장·배포 비용이 크게 절감된다. - **정성적 평가**: 시각적으로는 색상 경계가 부드러워지고, 압축 아티팩트(블록, 색상 번짐)가 현저히 감소하였다. 특히 움직임이 큰 구간에서도 RMC와 TCCA가 효과적으로 시간 정보를 보존함을 확인할 수 있었다. ### 4. 의의 및 향후 과제 BQE는 **첫 번째 블라인드 포인트 클라우드 속성 강화** 모델로서, 압축 전후 QP 정보를 알 수 없는 실시간 전송·스트리밍 시나리오에 적합하다. 또한, RMC와 TCCA의 조합은 포인트 클라우드 특유의 비정형 구조와 시간 변동성을 동시에 다루는 새로운 패러다임을 제시한다. 향후 연구에서는 (1) 기하학 압축까지 확장해 Geometry‑Blind Enhancement를 구현, (2) 경량화된 버전을 설계해 모바일·엣지 디바이스에 적용, (3) 멀티모달(텍스처·라이다·레이다) 데이터를 동시에 처리하는 통합 프레임워크 개발 등이 기대된다. **

동적 포인트 클라우드 압축 품질 향상을 위한 블라인드 강화 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기