텍스트 보존 배경 생성으로 다중 페이지 문서 자동 편집
초록
본 논문은 문서 레이아웃을 다층 구조로 취급하고, 확산 모델에 ‘잠재 마스킹’과 ‘자동 가독성 최적화(ARO)’를 결합해 텍스트와 그림을 손상 없이 배경을 생성한다. 페이지별 요약·명령 생성 파이프라인을 통해 전체 문서에 일관된 시각적 모티프를 유지하며, 사용자 프롬프트로 색·텍스처를 자유롭게 조정할 수 있다.
상세 분석
이 연구는 기존 확산 기반 이미지 생성이 문서 편집에 적용될 때 겪는 두 가지 핵심 문제—전경(텍스트·그림) 손상과 페이지 간 스타일 불일치—를 해결한다. 첫 번째 해결책은 ‘잠재 마스킹(latent masking)’이다. 텍스트와 그림 영역을 레이아웃 분석으로 추출한 뒤, 해당 영역에 부드러운 감쇠 함수를 적용한다. 이는 물리학의 스무스 배리어 함수와 최적화에서의 가중치 함수와 유사하게, 확산 단계에서 해당 영역의 노이즈 업데이트를 연속적으로 감소시켜 경계에 급격한 변화를 방지한다. 마스크는 이진이 아니라 연속적인 값(0~1)으로 표현돼, 전경 주변에 자연스러운 흐림 효과를 제공하면서도 텍스트 가독성을 보존한다.
두 번째 핵심 기법은 ‘자동 가독성 최적화(ARO)’이다. ARO는 배경의 평균 휘도와 대비를 분석해 WCAG 2.2에서 제시하는 최소 대비 비율(예: 4.5:1)을 만족하도록 반투명 원형 백업 쉐이프의 불투명도 α를 계산한다. 여기서 선형 라이트 모델을 사용해 픽셀별 대비를 예측하고, 목표 대비를 달성하기 위해 필요한 최소 α값을 구한다. 결과적으로 텍스트 위에 삽입되는 쉐이프는 최소한의 시각적 방해만을 제공하면서도 접근성 기준을 충족한다.
다중 페이지 일관성은 ‘요약‑명령 생성 파이프라인’으로 구현된다. 각 페이지의 전체 텍스트 T_i를 요약 모델 f_sum에 입력해 5단어 이하의 핵심 주제 라벨 s_i를 얻는다. 이후 이전 페이지들의 명령 u_{1..i‑1}을 메모리 H_{i‑1}에 저장하고, 인스트럭션 생성 모델 f_inst가 s_i와 사용자 프롬프트 p, H_{i‑1}을 결합해 현재 페이지의 배경 디자인 명령 u_i를 만든다. 이렇게 재귀적으로 축적된 스타일 힌트(색조, 텍스처, 모티프)는 이후 페이지에 자동 전달돼 전체 문서에 일관된 시각적 흐름을 만든다.
전체 시스템은 ‘전경‑배경 분리 레이어 구조’를 유지한다. 텍스트·그림 레이어는 그대로 보존하고, 배경 레이어만 확산 모델에 의해 재생성된다. 이는 기존의 전체 이미지 재생성 방식과 달리, 전경 손실 위험을 근본적으로 차단한다. 실험에서는 기존 확산 기반 도구(BAGEL, POSTA 등)와 비교해 텍스트 손실 비율이 0%에 가깝고, 페이지 간 색·패턴 일관성 점수가 크게 향상되었으며, ARO 적용 시 WCAG 대비 기준을 100% 만족한다는 결과를 보였다.
이 논문의 주요 기여는 (1) 연속적인 잠재 마스킹을 통한 전경 보호, (2) WCAG 기반 자동 대비 최적화 모듈, (3) 요약·명령 기반 재귀 메모리를 활용한 다페이지 스타일 일관성이다. 한계점으로는 복잡한 표·수식 영역에 대한 마스크 정확도가 아직 개선 여지가 있으며, 요약 모델이 문서의 시각적 디테일을 충분히 포착하지 못할 경우 배경 디자인이 부적절해질 수 있다. 향후 연구에서는 표·수식 전용 마스크와 멀티모달 요약 모델을 도입해 더욱 정교한 문서 편집 파이프라인을 구축할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기