놀라움의 한 획 벡터 스케치에서 진행형 의미 착시
초록
본 논문은 초기 스트로크가 하나의 객체를 형성하면서 동시에 후속 스트로크에 의해 완전히 다른 객체로 변환되는 “진행형 의미 착시”라는 새로운 벡터 스케치 과제를 정의한다. 저자는 이 과제를 해결하기 위해 프리픽스와 델타 스트로크를 동시에 최적화하는 듀얼‑브랜치 Score Distillation Sampling(SDS) 프레임워크와, 스트로크 간 겹침을 억제하는 Overlay Loss를 제안한다. 실험 결과, 제안 방법은 기존 라스터·벡터 기반 베이스라인보다 인식 가능도와 착시 강도에서 크게 우수함을 보인다.
상세 분석
본 연구는 시각 착시를 시간 축으로 확장한 ‘진행형 의미 착시(Progressive Semantic Illusion)’라는 새로운 과제를 제시한다. 기존 착시는 다중 시점, 그림자, 색상 변조 등 공간적 변형을 이용해 관찰자의 인식을 교란했지만, 여기서는 동일한 벡터 스케치가 단계별 스트로크 추가를 통해 전혀 다른 의미를 갖도록 설계한다. 핵심 난제는 ‘이중 제약(dual‑constraint)’이다. 초기 프리픽스 스트로크는 객체 A(예: 오리)를 명확히 표현해야 할 뿐 아니라, 후속 델타 스트로크가 추가될 때 객체 B(예: 양)의 구조적 기반이 되어야 한다. 이 두 목표를 동시에 만족시키려면 두 객체가 공유할 수 있는 ‘공통 구조 서브스페이스’를 찾아야 한다.
이를 위해 저자는 두 개의 병렬 브랜치를 갖는 듀얼‑브랜치 SDS 최적화 프레임워크를 설계한다. 상위 브랜치는 프리픽스 스트로크만을 렌더링하고, 텍스트‑투‑이미지 확산 모델(Freeze‑Diffusion)으로부터 “A” 프롬프트에 대한 SDS 손실을 계산한다. 하위 브랜치는 전체 스트로크(프리픽스+델타)를 렌더링해 “B” 프롬프트에 대한 SDS 손실을 얻는다. 두 손실을 합산한 총 SDS 손실은 파라미터 θ에 역전파되어 프리픽스와 델타 모두를 동시에 업데이트한다. 이 과정에서 프리픽스 스트로크는 두 목표로부터 동시에 그래디언트를 받아, 초기 객체를 유지하면서도 미래 객체에 대한 구조적 ‘준비’를 한다.
하지만 순수 SDS만으로는 스트로크 간 겹침(overlap) 문제가 발생한다. 델타 스트로크가 프리픽스를 가려버리면 착시 효과가 사라진다. 이를 해결하기 위해 ‘Overlay Loss’를 도입한다. 프리픽스와 델타 스트로크를 각각 렌더링한 뒤 가우시안 블러를 적용해 부드러운 공간 버퍼를 만든다. 두 블러된 이미지 간 내적을 정규화한 값으로 겹침 정도를 정량화하고, 이를 최소화하도록 손실에 가중치 λ_overlay를 곱해 추가한다. 이 손실은 스트로크가 서로 충분히 떨어져 배치되도록 유도해, 시각적 클러터를 억제하고 구조적 통합을 촉진한다.
학습 초기에는 모든 스트로크를 캔버스 중앙에 무작위 배치하고, 프리픽스와 델타를 사전에 지정된 비율(k/N)로 나눈다. 이후 매 반복마다 두 브랜치에서 얻은 그래디언트를 합산해 파라미터를 업데이트한다. 이때 프리픽스 스트로크는 델타 스트로크와 공유된 파라미터이므로, 델타 단계에서도 영향을 받는다. 결과적으로 초기 스트로크는 ‘공통 서브스페이스’를 탐색하며, 두 객체 모두에 의미 있게 기여한다.
평가에서는 GPT‑4o 기반 VLM을 활용해 1) 프리픽스 인식도, 2) 전체 스케치 인식도, 3) 프리픽스가 전체에 기여했는지(illusion quality), 4) 시각적 클러터 여부를 4가지 차원에서 점수화한다. 또한 CLIP, Inception‑ResNet, HPS 등 이미지-텍스트 매칭 메트릭을 결합한 정량적 점수도 제시한다. 실험 결과, 제안 방법은 기존 라스터 기반 ‘Nano Banana Pro’와 벡터 기반 ‘SketchDreamer’, ‘SketchAgent’ 등과 비교해 프리픽스와 전체 모두에서 평균 인식 점수가 15~20% 이상 상승했으며, Overlay Loss를 사용하지 않은 경우 대비 겹침 비율이 30% 이상 감소했다.
추가적으로 저자는 K‑phase(다단계) 확장을 제시한다. 각 단계마다 새로운 델타 스트로크 집합을 추가하고, 모든 누적 스케치를 각각의 텍스트 프롬프트에 맞춰 병렬 SDS 손실을 계산한다. 이렇게 하면 초기 스트로크가 전체 시퀀스에 걸쳐 지속적으로 재사용되며, 복잡한 ‘A→B→C’ 형태의 진행형 착시도 자연스럽게 생성된다. 전체적으로 이 논문은 벡터 스케치 생성에 시간적 제약을 도입함으로써, 기존 정적 이미지 생성 연구에 새로운 차원을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기