멀티모달 한 번에 3D 스타일링 AnyStyle
초록
AnyStyle는 사전 학습된 3D Gaussian Splatting 백본에 가벼운 스타일 주입 모듈만 추가해, 텍스트·이미지 두 형태의 스타일 입력을 한 번의 전방 패스로 적용한다. 기존 방식이 요구하던 전용 학습이나 복잡한 파이프라인 없이도 0.1초 이내에 고품질 기하와 일관된 스타일을 동시에 얻을 수 있다.
상세 분석
AnyStyle는 현재 3D 재구성 분야에서 급부상하고 있는 피드포워드 3D Gaussian Splatting(3DGS)을 기반으로, 스타일 제어를 완전히 분리된 모듈로 구현한 점이 가장 큰 혁신이다. 기존의 3D 스타일 전이 방법은 대부분 이미지 기반 스타일링에 국한되었으며, 텍스트 프롬프트를 활용하려면 별도의 대규모 학습이 필요하거나, 스타일링과 기하 재구성을 동시에 학습해야 하는 복잡한 구조를 갖추었다. AnyStyle는 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, CLIP 기반의 공유 임베딩 공간을 활용해 텍스트와 이미지 스타일을 동일한 벡터로 변환한다. 여기서 Long‑CLIP을 사용해 긴 문맥과 미세한 스타일 디테일을 포착함으로써, “부드러운 색조”와 같은 추상적 표현부터 “거친 붓터치”와 같은 구체적 시각까지 자유롭게 조정할 수 있다. 둘째, Zero‑Conv(0‑초기화 컨볼루션) 방식을 차용한 스타일 인젝터를 설계했다. 이 모듈은 스타일 임베딩을 1×1 컨볼루션으로 투사한 뒤, 기존 토큰에 가감 형태로 삽입한다. 초기 가중치가 0이므로 사전 학습된 AnySplat 백본의 동작을 그대로 유지하면서, 스타일 파라미터만 점진적으로 학습된다. 이러한 설계는 (a) 기존 백본을 그대로 재사용해 학습 비용을 크게 절감하고, (b) 다양한 트랜스포머 기반 백본에 레이어‑와 무관하게 플러그인 형태로 삽입할 수 있는 모듈성을 제공한다는 장점을 만든다.
구조적으로 AnyStyle는 두 개의 병렬 브랜치를 갖는다. Frozen Backbone은 DINO 기반 피처 추출 → Aggregator → Camera/Depth/Gaussian Head 순으로 기하와 카메라를 복원한다. Style Branch는 복제된 Aggregator와 Gaussian Head을 가지고, 위에서 설명한 스타일 인젝터를 선택적 레이어에 삽입한다. 두 브랜치의 출력은 Gaussian Adapter에서 결합돼, 위치·스케일·불투명도는 Backbone에서, 회전·색상·쉐딩 계수는 Style Branch에서 각각 받아 최종 3D Gaussian 집합을 만든다. 이렇게 하면 기하 정확도는 유지하면서 색채와 질감만 스타일링이 가능해, 기존 방식이 겪던 “스타일 적용 시 기하 왜곡” 문제를 회피한다.
실험에서는 ArtFID, CLIP‑Score 등 정량 지표와 사용자 선호도 조사에서 기존 최첨단 피드포워드 방식(StyloS, Styl3R 등)을 앞섰다. 특히 텍스트‑이미지 혼합 프롬프트를 이용한 연속적인 스타일 보간이 가능해, 사용자는 “같은 장면을 밤하늘 스타일 → 낮 햇빛 스타일”처럼 자연스럽게 전환할 수 있다. Ablation study에서는 (1) Head injection vs. Aggregator injection, (2) Zero‑Conv 사용 여부, (3) 백본 고정 여부 등을 검증했으며, Zero‑Conv와 백본 고정이 가장 안정적인 학습과 높은 스타일 일관성을 제공함을 확인했다.
결과적으로 AnyStyle는 “모듈식·멀티모달·제로샷·단일패스”라는 네 가지 핵심 속성을 동시에 만족시키는 3D 스타일링 프레임워크로, 향후 실시간 게임, AR/VR 콘텐츠 제작, 영화 프리비주얼 등 다양한 산업에 바로 적용 가능한 수준의 효율성과 유연성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기