TeleStyle 이미지와 비디오를 위한 콘텐츠 보존 스타일 전송
초록
TeleStyle은 Qwen‑Image‑Edit 기반의 경량 모델로, 이미지와 비디오에 대해 내용은 유지하면서 다양한 스타일을 정확히 적용한다. 고품질 큐레이션 데이터와 대규모 합성 데이터로 구성된 하이브리드 트리플렛을 커리큘럼 지속 학습(Curriculum Continual Learning) 방식으로 순차 학습함으로써, 제한된 정제 데이터와 잡음이 많은 합성 데이터 사이의 트레이드오프를 극복한다. 또한 첫 프레임을 스타일 기준으로 활용하는 비디오‑투‑비디오 모듈을 도입해 시간적 일관성을 확보한다. 실험 결과, 스타일 유사도, 내용 일관성, 미적 품질 세 가지 핵심 지표에서 기존 최첨단 방법들을 앞선다.
상세 분석
TeleStyle은 Diffusion Transformer(DiT) 구조가 내재적으로 콘텐츠와 스타일을 얽히게 만드는 문제를 데이터 중심 접근법으로 해결한다. 기본 모델인 Qwen‑Image‑Edit은 다중 레퍼런스 입력을 구분하기 위해 MS‑RoPE를 사용하지만, 스타일 전송을 위한 명시적 메커니즘은 없었다. 연구팀은 먼저 “clean” 트리플렛(스타일, 콘텐츠, 타깃) 30만 개를 엄격히 필터링해 고품질 데이터셋 D_collected을 구축하고, 스타일 이미지와 콘텐츠 이미지를 역전시켜 합성 트리플렛 100만 개(D_synthetic)를 생성했다. 합성 과정은 (1) 스타일이 적용된 타깃을 FLUX 기반 이미지 편집기로 포토리얼리즘 콘텐츠로 복원, (2) DINOv2 기반 CDST로 스타일 레퍼런스를 추출, (3) 사전 정의된 프롬프트 뱅크에서 무작위 프롬프트를 샘플링하는 순서로 진행된다.
데이터 품질 차이를 그대로 학습하면 성능이 급격히 저하되므로, 연구진은 3단계 커리큘럼 지속 학습 프레임워크를 설계했다.
1️⃣ Capability Activation 단계에서는 D_collected 전체를 사용해 LoRA 기반 Q1을 학습, 기본적인 콘텐츠 보존 스타일 전송 능력을 활성화한다.
2️⃣ Content Fidelity Refinement 단계에서는 콘텐츠 일관성이 높은 샘플에 가중치를 높인 D2로 미세조정해 Q2를 만든다. 이 과정에서 세부 얼굴 특징·미세 텍스처 보존이 크게 개선된다.
3️⃣ Robust Generalization 단계에서는 Q2를 초기화하고, D2와 낮은 비율(≈10%)의 D_synthetic을 혼합한 D3로 최종 학습해 Q3를 얻는다. 여기서 Catastrophic Forgetting을 방지하면서, 다양한 OOD 스타일에 대한 일반화 능력이 크게 향상된다.
모델 파라미터는 전체 Qwen‑Image‑Edit을 직접 fine‑tune하는 대신 LoRA 어댑터만 업데이트함으로써 학습 효율성을 극대화했다. 손실 함수는 흐름 매칭(flow‑matching) 기반 L2 거리로, 스타일·콘텐츠·프롬프트를 모두 조건으로 포함한다.
비디오 확장에서는 첫 프레임을 스타일 기준으로 사용하고, 두 개의 전용 Patch Embedder(스타일 이미지와 비디오 프레임)로 시공간 토큰을 생성한다. 이 토큰들을 노이즈 라티트와 채널‑와이즈로 결합하고, 빈 텍스트 토큰을 삽입해 DiT 블록을 통과시킨다. 시간 인덱스를 스타일 프레임에 0으로 고정하고, 나머지 프레임은 원본 순서를 유지함으로써 스타일이 시간 축에 고정된 앵커 역할을 하게 한다. 최적화는 선형 보간된 스타일 비디오와 노이즈 사이의 흐름 매칭 손실을 사용해, 별도의 optical flow나 테스트‑타임 최적화 없이도 높은 시간적 일관성을 달성한다.
평가에서는 StyleID 기반 스타일 유사도, CPC(Content Preservation Consistency) 점수, Aesthetic Score 등 3가지 지표를 채택했으며, TeleStyle은 기존 StyleShot, InstantStyle, OmniStyle 등과 비교해 각각 0.577/0.441/0.304/6.317의 최고 점수를 기록했다. 특히 비디오 실험에서 복잡한 움직임과 급격한 구조 변화를 가진 애니메이션에서도 스타일이 흐트러지지 않고, 색감·질감이 일관되게 유지되는 모습을 보였다.
전체적으로 TeleStyle은 (1) 데이터 중심 커리큘럼 학습으로 DiT의 콘텐츠‑스타일 얽힘을 완화, (2) LoRA 기반 경량 파인튜닝으로 효율적인 파라미터 업데이트, (3) 첫 프레임 기반 시공간 전파 구조로 비디오 일관성을 확보한다는 세 가지 핵심 혁신을 제시한다. 이는 향후 대규모 Diffusion Transformer 기반 멀티모달 생성 모델에 스타일 전송 기능을 손쉽게 부착할 수 있는 실용적인 청사진을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기