초저비트율을 위한 이중표현 이미지 압축 명시적 의미와 암시적 텍스처 통합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 초저비트율(≤0.02 bpp) 이미지 압축에서 명시적 의미와 암시적 텍스처를 동시에 활용하는 이중표현 프레임워크를 제안한다. 고수준 의미는 태그형 프롬프트와 압축된 VAE 잠재벡터로 전달하고, 세밀한 질감은 역채널 코딩(RCC)을 이용해 확산 모델의 노이즈 단계에서 암시적으로 전송한다. 플러그인 인코더와 비트 조절 가능한 τ 파라미터를 도입해 왜곡‑지각 트레이드오프를 연속적으로 제어한다. 실험 결과 Kodak, DIV2K, CLIC2020 데이터셋에서 DISTS와 CLIPSim 기준으로 기존 최첨단 방법들을 크게 능가한다.
상세 분석
이 논문은 초저비트율 압축에서 발생하는 “의미‑질감 트레이드오프”를 근본적으로 해소하려는 시도로, 명시적·암시적 두 가지 표현을 결합한 이중표현 구조를 제시한다. 명시적 부분은 사전학습된 VAE 인코더를 통해 얻은 잠재 z를 하이퍼인코더로 압축해 양자화·엔트로피 코딩한 ˆy와, RAM 기반 태그형 프롬프트 c를 사용한다. 태그는 고정 길이 비트코드로 인코딩돼 기존 캡션 방식보다 비트 효율이 크게 개선된다. 암시적 부분은 확산 모델의 노이즈 단계 z_t를 역채널 코딩(RCC)으로 압축한다. 여기서 p_θ(z_t|z_{t+1},c,ˆy)라는 조건부 분포를 공유함으로써, 디코더가 동일한 사전분포를 이용해 q(z_t|z_{t+1},z_0) 를 복원하고, 이후 조건부 역확산을 수행해 최종 잠재 ˆz 를 얻는다. 중요한 설계는 τ∈
댓글 및 학술 토론
Loading comments...
의견 남기기