폰트사용: 데이터 중심의 스타일·용도 기반 이미지 내 타이포그래피 제어
초록
**
본 논문은 텍스트‑투‑이미지 생성 모델이 폰트 스타일과 사용 사례를 정확히 반영하도록 하기 위해, 자동화된 어노테이션 파이프라인으로 구축한 7만 장 규모의 FontUse 데이터셋을 활용한 데이터‑중심 학습 방식을 제안한다. 텍스트 영역 검출·OCR·멀티모달 LLM을 결합해 “폰트 스타일”, “용도”, “색상” 등 구조화된 메타데이터를 자동 생성하고, 이를 기존 Diffusion 기반 이미지 생성기에 미세조정함으로써 스타일·용도 조건을 텍스트 프롬프트만으로 일관되게 제어한다. 또한 Long‑CLIP 기반 평가 지표와 MLLM 기반 인간‑비교 실험을 통해 제안 방법의 우수성을 입증한다.
**
상세 분석
**
본 연구는 최근 텍스트‑투‑이미지 모델이 고품질 시각 콘텐츠를 생성함에도 불구하고, 이미지 내 텍스트(특히 폰트)의 세밀한 스타일링과 사용 맥락을 반영하지 못한다는 문제점을 정확히 짚어낸다. 기존 접근법은 주로 모델 구조를 변형하거나 별도 텍스트‑전용 모듈을 삽입하는 방식에 의존했지만, 이는 데이터 부족과 레이블 불일치라는 근본적인 한계를 극복하지 못한다. 저자들은 “데이터‑중심”이라는 관점에서 문제를 재정의하고, 두 축(폰트 스타일, 사용 사례)을 명시적으로 표현한 어노테이션 스키마를 설계하였다.
데이터 구축 파이프라인은 크게 네 단계로 구성된다. 첫째, 공개된 폰트 디자인 웹사이트에서 70K 수준의 이미지(포스터, 메뉴, 로고 등)를 수집한다. 둘째, 최신 세그멘테이션 모델인 Hi‑SAM을 이용해 텍스트 영역을 정확히 검출하고, 워드‑레벨 마스크를 바운딩 박스로 변환한다. 셋째, 각 영역에 대해 OCR을 수행하는데, 여기서는 멀티모달 대형 언어 모델(MLLM)을 활용해 복잡한 장식 폰트까지 높은 인식률을 확보한다. 넷째, 동일 MLLM에 사전 정의된 프롬프트 템플릿을 제공해 “스타일”, “용도”, “색상”을 포함한 구조화된 메타데이터를 자동 생성한다. 이 과정은 인간 라벨러의 비용을 거의 0에 가깝게 낮추면서도 일관된 라벨 품질을 유지한다는 점에서 큰 장점이 있다.
생성 모델 학습에서는 기존 Any‑Text, TextDiffuser‑2, Stable Diffusion 3 등 다양한 Diffusion 백본에 동일한 어노테이션을 입력 텍스트로 결합해 미세조정한다. 모델 구조 자체는 변경하지 않으며, 프롬프트에 “serif, wedding invitation”과 같이 스타일·용도 조합을 삽입하면 해당 속성을 반영한 텍스트가 이미지에 삽입된다. 특히, 텍스트 영역을 지정하는 좌표 정보와 OCR 문자열을 함께 제공함으로써 모델이 “어디에, 어떤 텍스트를, 어떤 스타일로” 출력해야 하는지를 명시적으로 학습한다.
평가에서는 두 가지 축을 도입한다. 첫째, Long‑CLIP 기반 메트릭을 설계해 생성된 텍스트 이미지와 목표 프롬프트 사이의 의미·시각적 정렬도를 정량화한다. 기존 CLIP보다 긴 텍스트 시퀀스를 처리하도록 확장한 점이 특징이다. 둘째, MLLM을 활용한 쌍대 비교 실험을 수행해 인간 평가와 높은 상관관계를 보이는 자동 평가 체계를 구축했다. 실험 결과, 제안 방법은 베이스라인 대비 스타일 일관성 점수가 평균 18% 상승하고, 용도 적합도에서도 유의미한 개선을 보였다.
핵심 인사이트는 다음과 같다. (1) 구조화된 어노테이션이 모델의 스타일·용도 이해를 크게 촉진한다. (2) 데이터‑중심 접근은 모델 아키텍처에 제한받지 않아 다양한 Diffusion 기반 생성기에 적용 가능하다. (3) 자동화된 라벨링 파이프라인은 대규모 타이포그래피 데이터셋 구축을 현실화한다. 한계점으로는 현재 OCR·MLLM이 비라틴 문자(예: 한자, 아라비아 문자) 처리에 약한 점과, 복잡한 레이아웃(다중 컬럼, 곡선 경로)에서 텍스트 위치 추정 정확도가 떨어지는 점을 들 수 있다. 향후 연구에서는 다국어 OCR 통합과 레이아웃‑인식 강화, 그리고 사용자‑인터랙티브 피드백 루프를 통한 라벨 품질 개선이 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기