벡터폰트 생성의 새로운 패러다임, VecFusion

벡터폰트 생성의 새로운 패러다임, VecFusion
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VecFusion은 래스터‑디퓨전 모델과 벡터‑디퓨전 모델을 연계한 2단계 확산 구조를 도입해, 저해상도 래스터 이미지와 보조 제어점 필드를 기반으로 고품질 벡터 폰트를 자동 생성한다. 트랜스포머 기반 벡터 디퓨전은 혼합 이산‑연속 제어점 표현을 활용해 경로 수와 제어점 위치를 정밀히 예측하며, 기존 VAE·오토리그레시브 방식보다 복잡한 토폴로지와 스타일 다양성을 크게 향상시킨다.

상세 분석

본 논문은 벡터 폰트 생성이라는 특수한 그래픽 문제에 확산 모델을 적용한 최초 수준의 시도를 제시한다. 핵심 아이디어는 두 단계의 연속적인 디퓨전 프로세스를 통해 래스터와 벡터 도메인을 각각 최적화한다는 점이다. 첫 번째 단계인 Raster‑DM은 64×64 해상도의 그레이스케일 래스터 이미지와 함께 3채널 제어점 필드를 동시에 생성한다. 제어점 필드는 각 제어점의 좌표, 순서, 중복성을 가우시안 블롭으로 시각화해, 벡터 단계에 명시적인 위치 힌트를 제공한다. 이때 문자 코드포인트와 폰트 스타일을 각각 임베딩하고, 스타일이 이미지 기반이면 CNN으로 추출한 피처맵을 cross‑attention으로 UNet에 주입한다. UNet은 시간 스텝 임베딩과 결합된 조건을 받아 노이즈를 예측하고, MSE 손실로 학습된다.

두 번째 단계인 Vector‑DM은 혼합 이산‑연속 텐서 y₀를 정의한다. y₀는 M×D 형태이며, M은 최대 제어점 수, D는 경로 인덱스, 좌표, 존재 여부 등을 포함한다. 경로 인덱스는 사전 정렬을 통해 순열 불변성을 감소시켰으며, 좌표는 정규화된 실수값으로 표현한다. 이 텐서는 초기에는 완전한 가우시안 노이즈 y_T에서 시작해, 트랜스포머 기반 디노이저가 단계별로 노이즈를 제거한다. 트랜스포머는 self‑attention을 통해 장거리 의존성을 포착하고, cross‑attention을 통해 Raster‑DM에서 나온 이미지와 제어점 필드를 조건으로 활용한다.

특히 논문은 제어점 수와 경로 수를 자동 결정하도록 설계된 “mixed discrete‑continuous representation”을 제안한다. 기존 벡터 생성 모델은 고정된 토큰 시퀀스나 사전 정의된 경로 수에 의존했지만, VecFusion은 각 스텝에서 경로 존재 여부를 확률적으로 예측하고, 필요에 따라 새로운 경로를 활성화한다. 이는 복잡한 곡선과 다중 경로를 갖는 한글·한자·데바나가리 등 다양한 스크립트에 유연하게 대응한다는 장점을 만든다.

실험에서는 공개 폰트 데이터셋과 자체 수집한 다국어 폰트 컬렉션을 사용해, 기존 DeepVecFont‑v2, VAE‑based 모델, 그리고 이미지‑to‑벡터 파이프라인과 비교하였다. 정량 평가는 FID, LPIPS, 그리고 제어점 위치 오차(MAE)로 수행했으며, VecFusion이 모든 지표에서 현저히 우수함을 보였다. 정성 평가에서는 복잡한 곡선(예: ‘g’, ‘y’, ‘श’)에서 매끄러운 베지어 곡선과 정확한 제어점 배치를 유지했으며, 스타일 전이와 결손 글리프 보완에서도 높은 일관성을 보여준다.

또한, ablation study를 통해 두 단계 구조의 필요성을 입증했다. Raster‑DM 없이 직접 Vector‑DM을 학습하면 제어점 위치가 불안정하고, 제어점 필드 없이 Vector‑DM만 사용할 경우 경로 수 예측이 불안정해진다. 제어점 필드 채널 수를 3에서 1로 감소시키면 성능이 급격히 떨어지며, 이는 색상 인코딩이 경로 순서와 중복성을 전달하는 데 중요한 역할을 함을 시사한다.

한계점으로는 64×64 래스터 해상도가 매우 낮아 세밀한 디테일을 완전히 복원하기 어려우며, 고해상도 벡터 출력 시 후처리(스무딩, 재샘플링)가 필요할 수 있다. 또한, 현재는 베지어 곡선만 지원하므로, 복합적인 셰이프(예: 스플라인, 자유곡선)에는 확장성이 제한된다. 향후 연구에서는 다중 해상도 라디얼 디퓨전, 비정형 그래프 신경망을 통한 제어점 순서 학습, 그리고 실시간 인터랙티브 편집을 위한 역전파 가능한 렌더러 통합이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기