대규모 사전학습 확산 모델을 활용한 이미지 압축 전처리

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 텍스트‑투‑이미지 확산 모델인 Stable Diffusion 2.1을 이미지‑투‑이미지 변환용으로 경량화하고, 압축 전처리 단계에 적용함으로써 전통적인 픽셀‑레벨 R‑D 최적화에서 벗어나 인간 지각에 기반한 R‑P 최적화를 달성한다. 1단계에서 Consistent Score Identity Distillation(CiD)으로 단일 스텝 U‑Net을 만들고, 2단계에서 어텐션 모듈만을 효율적으로 파인튜닝해 차별화된 지각 손실과 차별화 가능한 BPG 서브시스템을 이용한다. 실험 결과 Kodak·CLIC 데이터셋에서 DISTS 기준 BD‑rate를 최대 30.13% 감소시키며, 주관적 품질에서도 우수함을 보였다.

상세 분석

이 연구는 이미지 압축 전처리 분야에 ‘Rate‑Perception (R‑P)’이라는 새로운 최적화 패러다임을 도입했다는 점에서 의미가 크다. 기존 전처리 방법은 대부분 픽셀‑레벨 손실(MSE, L1) 중심의 Rate‑Distortion(R‑D) 최적화에 머물렀으며, 이는 압축 효율은 높지만 인간 시각에 최적화된 결과를 얻기 어렵다. 저자들은 대규모 사전학습 확산 모델인 Stable Diffusion 2.1을 그대로 사용하면 연산량과 메모리 요구가 압도적으로 커 전처리로 활용하기 힘들다는 점을 정확히 지적하고, 두 단계의 프레임워크를 설계했다.

첫 번째 단계인 ‘Distillation’에서는 기존의 VSD(Variational Score Distillation) 대신 이미지‑투‑이미지 변환에 특화된 Consistent Score Identity Distillation(CiD)을 적용한다. CiD는 교사 모델(실제 스코어 네트워크)과 학생 모델(가짜 스코어 네트워크) 사이의 스코어 차이를 고정된 고품질 라티스 앵커(z_h)와 정렬하도록 학습한다. 이는 불안정한 z_g 대신 안정적인 라티스 앵커를 사용함으로써 학습 수렴성을 크게 향상시킨다. 결과적으로 원래 50‑step 이상을 필요로 하던 Stable Diffusion을 1‑step U‑Net으로 압축하면서도 텍스트 인코더를 고정하고 정적 임베딩만 남겨 inference 시간을 원 모델의 1% 수준으로 감소시켰다.

두 번째 단계인 ‘Rate‑Perception Fine‑tune’에서는 경량화된 U‑Net의 어텐션 블록만을 선택적으로 업데이트한다. 어텐션 모듈의 Q, K, V 프로젝션 행렬만을 학습함으로써 파라미터 효율성을 유지하면서도 이미지‑투‑이미지 변환 능력을 압축 전처리 목적에 맞게 재조정한다. 이때 손실 함수는 L1 손실, DISTS 기반 지각 손실, 그리고 차별화 가능한 BPG 서브시스템에서 추정된 bpp 손실을 가중합한 복합 형태이며, λ 파라미터는 QP에 따라 지수적으로 변하도록 설계해 다양한 비트레이트 구간에서 균형 잡힌 R‑P 트레이드오프를 가능하게 한다.

또한 차별화 가능한 BPG(dif‑BPG) 구현은 기존 비차별화 연산인 argmin 기반 모드 선택과 양자화 라운딩을 각각 soft‑argmin과 푸리에 급수 근사로 대체해 end‑to‑end 학습이 가능하도록 만든 점이 혁신적이다. 이를 통해 압축 코덱 자체를 수정하지 않고도 전처리 네트워크와 자연스럽게 결합할 수 있다.

실험에서는 DIV2K·Flickr2K를 학습 데이터로, Kodak·CLIC을 평가 데이터로 사용했으며, JPEG, WebP, BPG 등 세 종류의 표준 코덱에 적용했다. DISTS, LPIPS, TOPIQ‑fr 등 인간 지각과 상관관계가 높은 메트릭에서 기존 TDP 전처리 대비 BD‑rate 절감률이 20‑30% 수준으로 크게 향상되었다. 특히 저비트레이트(bpp < 0.5) 구간에서 R‑P 커브가 현저히 앞서며, 고비트레이트에서는 원본 이미지와의 차이가 커지면서 일부 메트릭에서 성능이 뒤처지는 현상이 관찰되었다. 이는 생성 기반 전처리가 저비트레이트에서 텍스처를 보강하고, 고비트레이트에서는 원본 보존을 우선시하는 전통적 방법과의 근본적인 차이를 반영한다.

전체적으로 이 논문은 대규모 확산 모델을 압축 전처리에 적용하기 위한 효율적인 경량화·파인튜닝 전략과, 지각 중심 손실 및 차별화 가능한 코덱 서브시스템을 결합한 새로운 R‑P 최적화 프레임워크를 제시한다. 향후 확산 모델의 더 큰 스케일링, 다양한 코덱과의 멀티‑모달 연계, 그리고 실시간 적용을 위한 하드웨어 최적화 연구가 기대된다.

대규모 사전학습 확산 모델을 활용한 이미지 압축 전처리

초록

상세 분석

댓글 및 학술 토론

의견 남기기