스케치 감지와 의미 예측을 통한 직관적 텍스처 편집
초록
ScribbleSense는 다중모달 대형 언어 모델(MLLM)과 이미지 생성 모델을 결합해 3D 모델의 자유로운 색상 스크리블을 의미와 위치까지 정확히 해석한다. MLLM이 스크리블의 색·위치를 기반으로 편집 의도를 추론하고, 전역 이미지 생성으로부터 적합한 로컬 텍스처를 선택해 마스크를 정교화한다. 이를 통해 기존 스케치 기반 편집의 의미 모호성 및 전역‑로컬 불일치를 해소하고, 사용자 의도에 부합하는 고품질 텍스처를 실시간으로 제공한다.
상세 분석
ScribbleSense는 기존 텍스처 편집 방법이 겪는 세 가지 핵심 문제—사용자 행동에 대한 사전 지식 부족, 전역 텍스트와 로컬 스크리블 사이의 의미적 모호성, 그리고 이미지 생성 모델의 데이터 다양성 제한—를 동시에 해결한다. 첫 번째 단계에서 저자는 다중뷰 렌더링 이미지와 스크리블을 MLLM에 입력해 색상과 공간 정보를 동시에 고려한 의미 추론을 수행한다. 다중뷰 입력은 단일 뷰에서 발생할 수 있는 색상-의미 혼동을 방지하고, 전체 장면의 일관성을 유지하도록 돕는다. 두 번째 단계에서는 MLLM이 도출한 의미를 바탕으로 고품질 전역 프롬프트를 자동 생성하고, 최신 Stable Diffusion 모델을 이용해 전역 이미지를 만든다. 여기서 중요한 점은 전역 이미지 안에서 로컬 텍스처 패치를 추출함으로써, 훈련 데이터가 주로 전체 객체를 다루는 한계를 극복하고, 기존 텍스처와 스타일을 자연스럽게 이어받을 수 있다는 것이다. 세 번째로, 스크리블 마스크를 정밀화하기 위해 기하학 정보를 활용한다. 저자는 Segment Anything Model(SAM)을 다중뷰에 순차 적용해 초기 스크리블 영역을 최소 세그멘테이션으로 축소하고, 뷰 간 기하학적 매핑을 통해 마스크를 점진적으로 확장·수정한다. 이 과정은 사용자가 자유롭게 그린 거친 스크리블이 실제 편집하고자 하는 영역과 일치하도록 보장한다. 마지막으로 선택된 로컬 텍스처를 인페인팅 모델에 전달해 정제된 마스크에 삽입함으로써, 전체 텍스처와 무결점으로 융합한다. 전체 파이프라인은 의미 예측 → 전역 프롬프트 생성 → 로컬 텍스처 선택 → 마스크 정제 → 인페인팅 순으로 흐르며, 각 단계마다 MLLM과 이미지 생성·세그멘테이션 모델이 상호 보완적으로 작동한다. 실험 결과는 기존 TEXTure, Diffusion Texture Painting 등과 비교했을 때, 색상 정확도, 의미 일치도, 그리고 시각적 일관성 측면에서 현저히 우수함을 보여준다. 특히, 복잡한 장면(예: 화산의 용암, 녹색 이끼 등)에서 스크리블 색만으로도 정확한 의미를 추론하고, 해당 의미에 맞는 텍스처를 자연스럽게 삽입하는 능력은 MLLM의 풍부한 상식 지식과 이미지 모델의 생성 능력이 결합된 결과라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기