통합 확산 모델 UniCalli로 한자 서예 컬럼 생성·인식 혁신

통합 확산 모델 UniCalli로 한자 서예 컬럼 생성·인식 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
UniCalli는 컬럼 수준의 한자 서예 생성과 인식을 하나의 확산 트랜스포머 안에서 공동 학습한다. 비대칭 노이징과 라스터 박스 맵을 이용해 레이아웃·자획 정보를 명시적으로 제공하고, Duplicate RoPE 기법으로 공간 정보를 통합한다. 제한된 라벨 데이터에서도 구조적 정확도와 미적 일관성을 동시에 달성하며, 고대 갑골문·이집트 상형문자까지 확장 가능함을 보였다.

**

상세 분석

**
본 논문은 기존 서예 연구가 “고품질 단일 글자”와 “전체 페이지 합성” 사이에서 트레이드오프를 겪는 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 생성인식을 동일 모델 안에서 양방향으로 학습시키는 것이다. 이를 위해 저자들은 세 가지 주요 기술적 기여를 제시한다.

첫째, 비대칭(noising) 스케줄을 도입한다. 표준 폰트(텍스트)와 실제 서예 이미지 두 개의 라티스(z_c, z_i)를 각각 다른 타임스텝(t_c, t_i)으로 노이즈한다. 생성 모드에서는 텍스트 라티스는 깨끗하게(t_c = 0) 유지하고 이미지 라티스에만 노이즈를 가해 역확산을 수행한다. 반대로 인식 모드에서는 이미지 라티스를 깨끗하게(t_i = 0) 두고 텍스트 라티스에 노이즈를 주어 텍스트를 복원한다. 이 설계는 동일 네트워크가 조건‑생성조건‑복원을 동시에 학습하도록 강제한다.

둘째, **라스터화된 박스 맵(z_m)**을 공간 프라이어로 활용한다. 각 글자의 바운딩 박스를 픽셀 레벨로 인코딩해 입력에 추가함으로써, 모델이 “어디에, 얼마나 크게” 글자를 배치해야 하는지를 명시적으로 학습한다. 이는 특히 서예 특유의 **자획 연결(ligature)**과 열 간 간격 리듬을 재현하는 데 결정적이다.

셋째, Duplicate RoPE 전략을 설계했다. 기존 RoPE는 2‑D 위치 정보를 토큰에 부여하지만, 여기서는 이미지 라티스(z_i)에서 계산한 RoPE를 복제해 텍스트 라티스(z_c)와 박스 맵 라티스(z_m)에 각각 **모듈레이션 임베딩(E_mod)**을 더한다. 이렇게 하면 세 모달리티가 동일한 좌표계에 정렬되면서도 각자 고유한 특성을 유지한다. 결과적으로 모델은 “위치 + 문자 + 스타일” 삼중 관계를 효율적으로 학습한다.

아키텍처는 최신 **Multimodal Diffusion Transformer(MMDiT)**를 기반으로 하며, 토큰을 타임스텝에 따라 스케일링하고 하나의 Self‑Attention 레이어에 병합한다. 이는 전통적인 autoregressive 방식과 달리 전체 캔버스를 한 번에 바라볼 수 있게 해, 페이지 전체의 레이아웃을 전역적으로 최적화한다.

학습 데이터는 8,000여 점의 디지털 서예 작품 중 4,000점을 정밀히 라벨링한 대규모 컬럼 데이터셋이다. 라벨에는 스크립트 종류(정서·행서·초서), 바운딩 박스, 현대어 전사 등이 포함된다. 라벨이 부족한 경우를 대비해 synthetic(폰트 기반)과 unlabeled(자기지도) 데이터를 혼합 학습한다. 손실 함수는 flow‑matching 기반 L_img, L_box, L_cond을 모드에 따라 가중합하고, λ = 0.02로 스타일‑정밀도 균형을 맞춘다.

실험 결과, 생성 측면에서는 FIDLPIPS에서 기존 CalliPaint·CalliffusionV2 대비 15 % 이상 개선되었으며, 인간 평가에서도 “자획 연결과 레이아웃 일관성”에서 최고 점수를 받았다. 인식 측면에서는 CER(Character Error Rate)가 4.2 %로, 최신 OracleNet·CalliReader와 비슷하거나 약간 우수했다. 특히 라벨이 10 %만 사용된 few‑shot 설정에서도 성능 저하가 미미했는데, 이는 공동 학습이 concept‑level abstraction(부수·획) 을 효과적으로 공유하기 때문이다.

또한, 동일 파라미터와 학습 스킴을 그대로 적용해 갑골문이집트 상형문자에 대한 실험을 수행했으며, 각각의 문자 구조와 레이아웃을 성공적으로 재현했다. 이는 UniCalli가 스크립트‑불변한 공간‑시각 모델임을 시사한다.

한계점으로는 (1) 현재는 수직 컬럼에만 초점을 맞추었으며, 가로형 서예나 복합 레이아웃에는 추가 설계가 필요하고, (2) 박스 맵 라벨링 비용이 높아 데이터 확장이 어려울 수 있다. 향후 연구에서는 점진적 라벨링(active learning)과 멀티‑스케일 RoPE를 도입해 이러한 제약을 완화할 계획이다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기