예술가 스타일 제거를 위한 대조적 서브스페이스 분해 DICE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
DICE는 사전 학습 없이 입력 프롬프트만으로 특정 예술가의 스타일을 실시간에 제거하는 프레임워크이다. 스타일‑콘텐츠를 구분하기 위해 스타일이 동일하고 내용이 다른 이미지, 내용이 동일하고 스타일이 다른 이미지로 구성된 대조 삼중항을 만든 뒤, 일반화된 고유값 문제를 풀어 스타일 전용 서브스페이스를 추출한다. 추출된 서브스페이스를 이용해 어텐션의 Q, K, V 행렬을 각각 억제·강화하고, 토큰별 스타일 농도를 기반으로 가변적인 삭제 강도를 적용한다. 실험 결과, 3초의 추가 연산만으로 스타일을 효과적으로 지우면서 원본 내용과 구조를 크게 손상시키지 않는다.

상세 분석

**
DICE는 기존 스타일 편집·컨셉 삭제 방법이 “스타일을 하나의 고정된 객체”로 취급해 가중치를 재학습하거나 텍스트를 교체하는 방식에 의존한다는 근본적인 한계를 지적한다. 저자는 스타일이 모델 내부에 퍼져 있는 추상적 개념이며, 단일 텍스트·이미지만으로는 이를 정확히 정의할 수 없다고 주장한다. 이를 해결하기 위해 세 가지 유형의 샘플을 포함하는 대조 삼중항(Anchor‑Positive‑Negative)을 구성한다. Anchor는 목표 스타일과 목표 내용이 모두 포함된 이미지, Positive는 동일 스타일·다른 내용을, Negative는 동일 내용·다른 스타일을 제공한다. 이 삼중항을 통해 모델은 “스타일 차이”와 “내용 차이”를 명시적으로 구분하도록 학습한다는 가정 하에, 각 샘플의 라티스 표현을 행렬 X(스타일 변동)와 Y(내용 변동)로 정리한다. 이후 고전적인 정준 상관 분석(CCA)의 일반화된 고유값 문제 형태인 Σ_XY Σ_YY⁻¹ Σ_YX u = ρ² Σ_XX u 를 풀어 스타일을 가장 잘 설명하는 고유벡터 집합을 얻는다. 이 고유벡터들이 바로 스타일 서브스페이스이며, 그 정규 직교 보완 공간이 내용 서브스페이스가 된다.

다음 단계에서는 어텐션 메커니즘을 세밀하게 조작한다. Q(쿼리) 벡터는 이미지 구조·위치 정보를 주로 담당하고, K(키)와 V(값) 벡터는 텍스처·색채 등 스타일 정보를 많이 포함한다는 관찰에 기반해, K와 V에 대해 스타일 서브스페이스 방향으로의 투영을 억제하고, Q에 대해서는 내용 서브스페이스 방향으로의 강화 가중치를 부여한다. 이를 “Attention Decoupling Editing”이라 명명하고, 어텐션 행렬에 직접적인 선형 변환을 적용한다.

또한 스타일 강도는 이미지 내 위치마다 크게 다를 수 있다. DICE는 각 토큰(패치)별로 스타일 서브스페이스와의 내적 크기를 측정해 “스타일 농도”를 추정하고, 소프트 임계값 함수를 이용해 토큰별 삭제 강도를 동적으로 조정한다. 이를 “Adaptive Erasure Controller”라 부르며, 과도한 억제로 인한 내용 손실을 최소화한다.

실험에서는 다양한 유명 화가(예: 반 고흐, 피카소 등)의 스타일을 목표로 삼아, 기존 컨셉 삭제·스타일 전이 기법과 비교한다. 정량적 지표(Style Cosine Similarity, Content PSNR, CLIP‑Score 등)와 정성적 시각 평가 모두에서 DICE는 스타일 제거율이 높으면서도 내용 보존도가 가장 우수했다. 특히 전체 파이프라인에 3초 정도의 추가 연산만 필요하다는 점은 실시간 서비스 적용 가능성을 크게 높인다. 한계점으로는 삼중항 생성에 필요한 레퍼런스 이미지가 사전에 확보돼야 한다는 점과, 매우 얇은 스타일(예: 미세한 붓터치)에서는 완전한 삭제가 어려울 수 있다는 점을 언급한다. 향후 연구에서는 자동 삼중항 생성 및 다중 스타일 동시 삭제, 그리고 텍스트‑이미지 멀티모달 확장을 제안한다.

예술가 스타일 제거를 위한 대조적 서브스페이스 분해 DICE

초록

상세 분석

댓글 및 학술 토론

의견 남기기