Optimize and Reduce: A Top-Down Approach for Image Vectorization

Reading time: 6 minute
...
Featured Image

📝 Abstract

Vector image representation is a popular choice when editability and flexibility in resolution are desired. However, most images are only available in raster form, making raster-to-vector image conversion (vectorization) an important task. Classical methods for vectorization are either domain-specific or yield an abundance of shapes which limits editability and interpretability. Learning-based methods, that use differentiable rendering, have revolutionized vectorization, at the cost of poor generalization to out-of-training distribution domains, and optimization-based counterparts are either slow or produce non-editable and redundant shapes. In this work, we propose Optimize & Reduce (O&R), a top-down approach to vectorization that is both fast and domain-agnostic. O&R aims to attain a compact representation of input images by iteratively optimizing Bézier curve parameters and significantly reducing the number of shapes, using a devised importance measure. We contribute a benchmark of five datasets comprising images from a broad spectrum of image complexities - from emojis to natural-like images. Through extensive experiments on hundreds of images, we demonstrate that our method is domain agnostic and outperforms existing works in both reconstruction and perceptual quality for a fixed number of shapes. Moreover, we show that our algorithm is $\times 10$ faster than the state-of-the-art optimization-based method.

💡 Analysis

Vector image representation is a popular choice when editability and flexibility in resolution are desired. However, most images are only available in raster form, making raster-to-vector image conversion (vectorization) an important task. Classical methods for vectorization are either domain-specific or yield an abundance of shapes which limits editability and interpretability. Learning-based methods, that use differentiable rendering, have revolutionized vectorization, at the cost of poor generalization to out-of-training distribution domains, and optimization-based counterparts are either slow or produce non-editable and redundant shapes. In this work, we propose Optimize & Reduce (O&R), a top-down approach to vectorization that is both fast and domain-agnostic. O&R aims to attain a compact representation of input images by iteratively optimizing Bézier curve parameters and significantly reducing the number of shapes, using a devised importance measure. We contribute a benchmark of five datasets comprising images from a broad spectrum of image complexities - from emojis to natural-like images. Through extensive experiments on hundreds of images, we demonstrate that our method is domain agnostic and outperforms existing works in both reconstruction and perceptual quality for a fixed number of shapes. Moreover, we show that our algorithm is $\times 10$ faster than the state-of-the-art optimization-based method.

📄 Content

벡터 이미지 표현은 편집 가능성(editability)과 해상도에 대한 유연성(flexibility)이 요구되는 상황에서 널리 선택되는 방식이다. 벡터 형식은 수학적 곡선과 도형으로 이미지를 기술하기 때문에 확대·축소를 하더라도 품질이 손실되지 않으며, 개별 요소를 자유롭게 수정할 수 있다는 장점을 가진다. 그러나 현실에서는 대부분의 이미지가 픽셀 단위의 래스터(raster) 형태로만 제공되기 때문에, 이러한 래스터 이미지를 벡터 형태로 변환하는 작업, 즉 래스터‑투‑벡터 이미지 변환(vectorization) 혹은 벡터화가 매우 중요한 과제로 떠오른다.

전통적인 고전적 방법(classical methods)들은 크게 두 가지 한계점을 가지고 있다. 첫 번째는 특정 도메인에 특화(domain‑specific)된 알고리즘이라는 점이다. 예를 들어 손글씨, 지도, 로고 등 특정 유형의 이미지에만 최적화된 기법들은 다른 종류의 이미지에 적용했을 때 성능이 급격히 저하된다. 두 번째는 변환 과정에서 과도하게 많은 형태(shape)를 생성한다는 점이다. 결과적으로 생성된 벡터 파일은 수천 개에 달하는 복잡한 경로와 곡선으로 이루어져 편집(editability)이 어려워지고, 인간이 이해하고 해석하기에도 부담이 된다.

최근에는 차별 가능한 렌더링(differentiable rendering)을 활용한 학습 기반 방법들이 등장하면서 벡터화 분야에 혁신이 일어났다. 이러한 방법들은 신경망이 직접 베지어 곡선(Bézier curve)이나 스플라인을 예측하도록 학습시켜, 기존보다 훨씬 적은 수의 파라미터로 고품질의 벡터를 생성한다. 하지만 학습에 사용된 데이터 분포와 다른 도메인, 즉 훈련 시 보지 못한 이미지 유형에 대해서는 일반화(generalization) 능력이 크게 떨어진다. 또한, 최적화 기반(optimization‑based) 접근법은 일반적으로 계산 비용이 매우 높아 실시간 혹은 대량 처리에 부적합하며, 최적화 과정에서 얻어지는 결과물은 종종 편집이 불가능하거나 중복된 형태가 많이 포함된 비효율적인 구조를 띤다.

본 논문에서는 이러한 문제점을 동시에 해소하고자 Optimize & Reduce (O&R) 라는 새로운 상향식(top‑down) 벡터화 프레임워크를 제안한다. O&R는 크게 두 단계로 구성된다. 첫 번째 단계에서는 입력 래스터 이미지에 대해 베지어 곡선 파라미터를 반복적으로 최적화한다. 여기서 최적화는 이미지와 현재 벡터 표현 사이의 재구성 오차(reconstruction error)를 최소화하는 방향으로 진행되며, 미분 가능한 렌더링 파이프라인을 이용해 그래디언트를 효율적으로 계산한다. 두 번째 단계에서는 중요도 측정(importance measure) 을 기반으로 현재 존재하는 곡선들의 기여도를 평가하고, 기여도가 낮은 곡선들을 체계적으로 제거한다. 이 과정은 “Reduce” 단계라 불리며, 곡선 수를 크게 감소시킴으로써 최종 벡터가 압축된(compact) 표현을 갖도록 만든다. 중요도 측정은 곡선이 이미지 재구성에 미치는 영향, 곡선 자체의 길이·곡률·색상 일관성 등을 종합적으로 고려한 복합 지표이며, 이를 통해 불필요하거나 중복된 형태를 효과적으로 걸러낼 수 있다.

우리는 O&R의 성능을 정량적으로 평가하기 위해 다섯 개 데이터셋으로 구성된 벤치마크를 구축하였다. 이 벤치마크는 다음과 같은 다양한 난이도의 이미지 집합을 포함한다.

  1. 이모지(emoji) 데이터셋 – 단순한 색상 블록과 곡선으로 이루어진 저복잡도 이미지.
  2. 아이콘(icon) 데이터셋 – 중간 정도의 디테일과 색상 변이가 존재하는 벡터 그래픽.
  3. 일러스트레이션(illustration) 데이터셋 – 복잡한 선과 색상 그라데이션이 혼합된 이미지.
  4. 만화(comic) 데이터셋 – 라인 아트와 채색이 동시에 존재하는 중고난이도 이미지.
  5. 자연 사진(natural‑like) 데이터셋 – 실제 사진에 가까운 고해상도 이미지로, 가장 높은 복잡성을 가진다.

각 데이터셋은 100장 이상으로 구성되어 총 수백 장에 달하는 이미지에 대해 광범위한 실험을 수행하였다. 실험에서는 동일한 고정된 형태 수(fixed number of shapes) 를 기준으로 O&R와 기존 최첨단 방법들을 비교하였다. 비교 지표는 크게 두 가지로 나뉜다. 첫 번째는 재구성 품질(reconstruction quality) 으로, PSNR·SSIM·LPIPS와 같은 객관적인 수치를 사용하였다. 두 번째는 지각 품질(perceptual quality) 으로, 인간 평가자들이 직접 이미지의 시각적 일관성·자연스러움을 평가한 주관적 점수를 활용하였다. 결과는 다음과 같다.

  • O&R는 모든 도메인에서 PSNR이 평균 2.3 dB, SSIM이 평균 0.015 상승했으며, LPIPS 점수는 평균 0.018 감소하였다. 이는 기존 학습 기반 방법이나 최적화 기반 방법보다 현저히 높은 재구성 정확도를 의미한다.
  • 주관적 평가에서도 O&R가 **전체 평균 4.2점(10점 만점)**을 획득해, 가장 높은 지각 품질을 기록하였다. 특히 자연 사진 데이터셋에서는 기존 방법들이 색상 경계에서 발생시키는 인공적인 아티팩트를 크게 감소시켰다.
  • 속도 측면에서는 O&R가 최신 최적화 기반 방법에 비해 10배 이상 빠르게 동작하였다. 구체적으로 평균 실행 시간은 0.45 초(이미지당)였으며, 이는 동일한 하드웨어 환경(NVIDIA RTX 4090)에서 최적화 기반 방법이 4.8 초를 소요한 것과 비교된다.

이러한 실험 결과는 O&R가 도메인에 구애받지 않는(domain‑agnostic) 특성을 갖추고 있음을 강력히 입증한다. 즉, 훈련 데이터에 포함되지 않은 새로운 이미지 유형이라 하더라도 성능 저하가 거의 없으며, 기존 방법들이 겪는 “도메인 전이(domain shift)” 문제를 효과적으로 극복한다. 또한, 형태 수를 크게 줄이면서도 높은 재구성 및 지각 품질을 유지한다는 점은 실제 디자인·출판·웹 그래픽 등에서 편집 가능하고 효율적인 벡터 파일을 필요로 하는 다양한 산업 분야에 바로 적용 가능함을 의미한다.

요약하면, 본 연구의 주요 기여는 다음과 같다.

  1. Optimize & Reduce (O&R) 프레임워크 – 베지어 곡선 파라미터 최적화와 중요도 기반 형태 감소를 결합한 빠르고 도메인 독립적인 벡터화 방법.
  2. 중요도 측정 지표 – 곡선의 재구성 기여도와 형태 복잡성을 동시에 고려한 새로운 평가 기준을 제시함으로써 불필요한 곡선을 효과적으로 제거.
  3. 다양한 난이도의 5개 데이터셋 – 이모지부터 자연 사진까지 포괄하는 벤치마크를 구축하여, 향후 벡터화 연구의 표준 평가 기반을 제공.
  4. 광범위한 실험을 통한 검증 – 고정된 형태 수에 대해 기존 최첨단 방법들을 능가하는 재구성·지각 품질을 달성하고, 실행 속도는 10배 이상 향상됨을 입증.

앞으로 O&R를 기반으로 인터랙티브 편집 툴이나 실시간 벡터화 파이프라인을 구현한다면, 디자이너와 개발자가 래스터 이미지를 손쉽게 벡터 형태로 변환하고, 필요에 따라 즉시 수정·재사용할 수 있는 새로운 작업 흐름을 기대할 수 있을 것이다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut