IntrinsicWeather 내재 공간 기반 날씨 편집 기술
초록
IntrinsicWeather는 입력 이미지에서 재질, 기하, 조명을 나타내는 내재 맵을 추출하고, 텍스트 프롬프트를 이용해 원하는 날씨로 재구성하는 확산 기반 프레임워크이다. 내재 맵 인식 어텐션과 CLIP 공간 보간을 도입해 정밀한 날씨 제어와 구조 보존을 가능하게 하며, 합성·실제 데이터셋에서 기존 픽셀‑스페이스 방법들을 크게 능가한다.
상세 분석
본 논문은 날씨 편집을 “픽셀‑스페이스”가 아닌 “내재 공간(intrinsic space)”에서 수행한다는 근본적인 전제를 제시한다. 입력 이미지에 대해 재질(albedo, roughness, metallic), 법선(normal), 그리고 조명·날씨 효과를 포함하는 irradiance 맵을 동시에 추정하는 역렌더러(inverse renderer)를 설계했으며, 이는 기존 실내·소물체 중심의 역렌더링 연구와 달리 대규모 야외·자동차 주행 환경을 목표로 한다. 역렌더러는 Stable Diffusion 3.5의 사전학습된 확산 모델을 기반으로 DiT(디퓨전 트랜스포머) 구조에 “Intrinsic Map‑Aware Attention”(IMAA)를 삽입한다. IMAA는 각 내재 맵에 대응하는 학습 가능한 임베딩 d를 정의하고, DINOv2로 추출한 패치 토큰 p와 결합해 MLP 기반 게이팅 함수 m = gating(p,d) 를 통해 이미지 토큰에 가중치를 부여한다. 이렇게 얻어진 마스크 m은 텍스트‑이미지 및 이미지‑이미지 어텐션 행렬에 바이어스로 적용돼, 예를 들어 법선 추정 시 기하학적 경계, 금속성 추정 시 반사체 등에 집중하도록 유도한다.
전방 렌더러(forward renderer)는 추출된 내재 맵을 그대로 사용하면서, 목표 날씨를 설명하는 텍스트 프롬프트를 CLIP 임베딩 공간에서 선형 보간한다. 구체적으로 e = Embed(w₁) − Embed(w₂) (목표‑원본 날씨 차이)와 α ∈
댓글 및 학술 토론
Loading comments...
의견 남기기