ROI 기반 이미지 압축을 위한 통합 프레임워크와 일반화 가우시안 모델
초록
본 논문은 ROI(Region‑of‑Interest) 기반 이미지 압축에서 발생하는 급격히 뾰족하고 꼬리가 무거운 잠재 변수 분포를 정확히 모델링하기 위해 일반화 가우시안 모델(GGM)을 제안한다. 통합된 Rate‑Distortion 최적화 이론을 구축하고, GGM의 스케일(α)과 형태(β) 파라미터를 안정적으로 학습하기 위한 차별화된 활성화 함수와 동적 하한 전략을 도입한다. 또한, GGM의 복잡한 미분을 유한 차분으로 근사해 효율적인 역전파를 구현한다. COCO2017 데이터셋을 이용한 실험에서 기존 가우시안·라플라시안·혼합 모델 대비 KL 발산을 크게 감소시키고, BD‑rate에서 현저한 이득을 얻으며, ROI 재구성 및 객체 검출·분할 등 다운스트림 작업에서도 최첨단 성능을 달성한다.
상세 분석
ROI 기반 이미지 압축은 비디오·의료·자율주행 등에서 중요한 영역에 더 많은 비트를 할당하고, 배경에는 최소 비트를 사용함으로써 전체 비트 예산을 효율적으로 활용한다. 이러한 비대칭 비트 할당은 잠재 변수(y)의 분포를 전역적으로는 ‘뾰족하고 꼬리가 무거운’ 형태로 만든다. 기존 연구들은 대부분 단일 가우시안(GM) 혹은 간단한 라플라시안 모델을 사용했으며, 이는 실제 분포의 급격한 피크와 긴 꼬리를 충분히 설명하지 못해 엔트로피 코딩 효율을 저하시킨다. 논문은 먼저 이러한 현상을 정량적으로 분석하고, KL 발산이 GM에서는 0.0487인 반면 제안된 GGM에서는 0.0224로 크게 감소함을 실험적으로 보여준다.
GGM은 스케일 파라미터 α와 형태 파라미터 β를 통해 분포의 폭과 꼬리 두께를 독립적으로 조절한다. 저자는 α와 β를 각각 Softplus와 Huber‑like 함수로 매핑해 학습 과정에서 음수값이나 급격한 변화를 방지하고, 작은 α값이 초래하는 train‑test mismatch(학습 시 균등 잡음 vs 테스트 시 하드 라운딩)를 완화하기 위해 α에 동적 하한을 적용한다. 또한, GGM의 정규화 상수인 불완전 감마 함수 P(a,b)의 미분은 폐쇄형 해가 없으므로, 중앙 유한 차분을 이용해 근사함으로써 역전파 그래디언트를 안정적으로 얻는다.
통합 RDO 패러다임에서는 라그랑주 승수 λ와 함께 손실 L = D + λ·R 형태로 정의하고, 여기서 D는 GGM 기반 재구성 손실(β′‑노름 형태)이며, R은 GGM을 이용한 엔트로피 모델의 기대 비트 수이다. β′는 고정값(보통 2)으로 두어 손실 항을 단순화하고, α′와 β′는 λ에 흡수시켜 최적화 복잡도를 낮춘다. 이렇게 하면 ROI와 비ROI 영역에 서로 다른 가중치 w_roi, w_nonroi를 적용해 왜곡을 조절하면서도, GGM이 제공하는 정확한 확률 모델링 덕분에 비트 할당이 보다 정밀하게 이루어진다.
실험에서는 COCO2017 이미지와 해당 ROI 마스크를 사용해, 기존 GM, Laplacian, Logistic, GMM, GLLMM 등과 비교하였다. GGM은 KL 발산을 최소화하고, 전체 이미지와 ROI 별 BD‑rate에서 평균 12%18%의 절감 효과를 보였다. 또한, 압축된 이미지에서 추출한 특징을 그대로 객체 검출(YOLO‑v5) 및 세그멘테이션(Mask‑RCNN)에 입력했을 때, mAP와 mIoU가 각각 1.52.3% 향상되는 등 다운스트림 성능에서도 이점을 확인했다.
요약하면, 본 논문은 ROI 기반 압축의 고유한 분포 특성을 수학적으로 정형화하고, 이를 정확히 모델링할 수 있는 GGM을 설계·학습하는 전 과정을 제시한다. 차별화된 활성화 함수, 동적 하한, 유한 차분 기반 그래디언트 근사 등 실용적인 최적화 기법을 통해 학습 안정성을 확보했으며, 실험을 통해 압축 효율과 응용 성능 모두에서 현존 최고 수준을 달성하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기