GlyphBanana: 정밀 텍스트 렌더링을 위한 에이전트 워크플로우
초록
GlyphBanana는 텍스트‑이미지 생성 모델에 시스템 폰트와 같은 고정밀 글리프 템플릿을 주입하는 에이전트 기반 파이프라인이다. 텍스트와 스타일을 추출·초안 생성·주파수 분해 기반 라티스 주입·주의 재가중을 순차적으로 수행해, 훈련 없이도 다양한 T2I 모델에서 복잡한 한자·수식·희귀 영단어를 OCR 정확도와 스타일 일관성을 크게 향상시킨다.
상세 분석
본 논문은 현재 확산 기반 텍스트‑이미지 모델이 OOD(Out‑of‑Distribution) 프롬프트에서 텍스트 정확도가 급격히 떨어지는 문제를 해결하고자 한다. 기존의 학습 기반 파인튜닝 방식은 데이터 의존도가 높고 일반화가 제한적이며, 학습‑프리 방식은 글리프 프라이어를 과도하게 강제해 배경 스타일을 손상시킨다. GlyphBanana는 이러한 양쪽의 단점을 보완하기 위해 ‘에이전트’라는 개념을 도입한다.
1️⃣ 추출 단계에서는 VLM(vision‑language model)을 이용해 사용자 프롬프트를 텍스트 내용(T)과 스타일 서술(S)으로 분리한다. 이는 이후 단계에서 정확한 글리프와 색·폰트·배치 정보를 얻기 위한 전제조건이다.
2️⃣ 초안 프리뷰 단계에서는 기존 T2I 모델로 스타일에 맞는 초기 이미지를 생성하고, 레이아웃 플래너가 텍스트‑그라운딩 툴을 활용해 폰트 종류, 색상, 바운딩 박스, 회전 각도 등을 포함하는 ‘타이포그래피 플랜’(P)을 만든다.
3️⃣ 글리프 주입 단계가 핵심이다. 여기서는 두 가지 기법을 결합한다.
- 주파수 분해(Frequency Decomposition): 라티스 zₜ를 저주파(LF)와 고주파(HF)로 분리하고, Otsu 기반 마스크 M을 통해 글리프가 차지하는 영역에만 고주파 성분을 교체한다. 이를 통해 글자 모양의 디테일은 보존하면서 배경과의 부드러운 전환을 가능하게 한다.
- 주의 재가중(Attention Re‑weighting): DiT 블록 내부의 self‑attention에 글리프 템플릿을 bias term으로 삽입하고, 양쪽 스케일 s⁺, s⁻을 조절해 글리프 영역의 attention weight를 강화한다. 결과적으로 디노이징 과정에서 모델이 글리프 정보를 더 크게 반영한다.
4️⃣ 스타일 정제 단계에서는 생성된 중간 이미지에 대해 프롬프트와 이미지 자체를 반복적으로 최적화한다. 스타일 리파이너와 스코어 저드저가 OCR 정확도와 시각적 일관성을 동시에 평가·향상시킨다.
이 파이프라인은 전혀 추가 학습 없이 플러그‑앤‑플레이 방식으로 임의의 확산 모델(DiT, Stable Diffusion 등)에 적용 가능하다. 실험에서는 Z‑Image와 Qwen‑Image에 적용했을 때 OCR 정확도가 각각 85.9%(+19.6%)와 75.8%(+6.91%)로 크게 상승했으며, 스타일 점수 역시 기존 베이스라인을 능가한다. 또한, GlyphBanana‑Bench이라는 새로운 벤치마크를 구축해 일반 영어, 희귀 한자, 복잡한 수식 등 5가지 난이도·언어 조합을 포괄적으로 평가하였다.
핵심 인사이트는 (1) 고정밀 시스템 폰트와 같은 외부 도구를 ‘에이전트’로 캡슐화해 diffusion 모델에 동적으로 주입함으로써 훈련 비용을 없애고, (2) 라티스와 attention 양쪽에서 주파수·위치 정보를 동시에 보강함으로써 텍스트와 배경 사이의 스타일 충돌을 최소화한다는 점이다. 이 접근은 향후 텍스트‑중심 디자인 자동화, 과학 논문 이미지 생성, 교육용 시각 자료 제작 등에 광범위하게 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기