벡터 프리즘: 의미 구조를 계층화하여 SVG 애니메이션 구현
초록
본 논문은 SVG 파일의 저수준 도형들을 의미 기반 그룹으로 재구성하는 “Vector Prism” 프레임워크를 제안한다. 다중 시각화와 약한 라벨링을 통계적으로 집계해 각 프리미티브의 의미를 추정하고, 이를 기반으로 SVG를 의미 계층으로 재구성한다. 재구성된 SVG는 비전‑언어 모델(VLM)이 일관된 애니메이션 코드를 생성하도록 돕는다. 실험 결과, 기존 방법 대비 애니메이션 품질과 명령 충실도가 크게 향상됨을 보였다.
상세 분석
Vector Prism은 SVG 애니메이션 자동화에서 가장 근본적인 문제인 “의미 결여 구조”를 해결한다. 기존 SVG는 렌더링 효율성을 위해 도형을 순차적으로 나열하고, 의미적 그룹화가 전혀 없기 때문에 VLM이 “귀의 귀는 움직여라”와 같은 고수준 명령을 해석하더라도 어떤
신뢰도 추정은 실제 라벨이 없는 상황에서도 가능하도록 설계되었으며, 행렬 B의 최고 고유벡터를 이용해 δ (정규화된 신뢰도 차이)를 복원한다. 이렇게 얻어진 p_i 로 각 프리미티브에 대한 최종 라벨을 산출하면, 의미가 명확히 정의된 클래스 속성을 SVG에 삽입하고, 기존의 렌더링 순서를 보존하면서도 의미 기반으로 그룹화한다. 결과적으로 “귀”, “눈”, “코”와 같은 의미 단위가
실험에서는 114개의 다양한 SVG와 애니메이션 명령 쌍을 구축하고, AniClipart(점수 왜곡 샘플링 기반 최적화), GPT‑5(대규모 언어 모델) 등 기존 베이스라인과 비교했다. Vector Prism을 적용한 시스템은 시각적 일관성, 움직임 자연스러움, 명령 충실도 측면에서 평균 27% 이상의 개선을 보였으며, 특히 복합 객체(동물, 로고, 건축물 등)에서 의미 그룹화가 없을 경우 발생하는 파편화된 움직임을 크게 감소시켰다. 또한, CSS 코드 토큰 제한 문제를 해결하기 위해 의미 카테고리별로 순차적 코드를 생성하는 전략을 도입했으며, 이는 전체 애니메이션 품질을 유지하면서도 모델의 출력 제한을 회피한다.
이 논문의 주요 공헌은 (1) SVG가 본래 가지고 있는 의미 결여 구조를 명시적으로 정의하고, (2) 약한 라벨을 통계적으로 정제해 신뢰성 높은 의미 라벨을 얻는 방법론, (3) 이러한 라벨을 활용해 기존 VLM/LLM 파이프라인에 바로 적용 가능한 애니메이션 준비 SVG를 자동 생성한다는 점이다. 향후 연구에서는 라벨링에 사용되는 시각화 종류를 자동 최적화하거나, 실시간 웹 인터페이스와 연동해 사용자 피드백을 반영하는 인터랙티브 구조로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기