ChangeBridge 원격탐사를 위한 시공간 이미지 생성 모델
초록
ChangeBridge는 사전 관측 이미지와 텍스트·마스크·인스턴스 레이아웃 등 다중 모달 제어를 입력으로 받아, 사건 중심 변화와 계절·조명 등 배경의 시계열 변화를 동시에 모델링한다. 기존의 노이즈‑투‑이미지 확산 모델을 대체하는 “드리프트 비동기 확산 브리지”를 도입해, 사전 이미지와 목표 이미지 사이를 직접 연결하는 브리지 초기화와 픽셀‑별 드리프트 맵을 활용한다. 실험 결과, 공간·시간 일관성이 높은 고품질 포스트‑이벤트 이미지를 생성하며, 다운스트림 변화 탐지·캡셔닝 작업에서도 성능 향상을 보인다.
상세 분석
ChangeBridge는 원격탐사 분야에서 “조건부 시공간 이미지 생성”이라는 새로운 과제를 정의하고, 이를 해결하기 위해 기존 확산 모델의 한계를 뛰어넘는 세 가지 핵심 모듈을 설계하였다. 첫 번째 모듈인 ‘Composed Bridge Initialization’은 전통적인 노이즈 초기화 대신, 사전 이미지의 배경과 다중 모달 제어가 만든 전경을 합성한 초기 상태를 만든다. 이 과정에서 전경‑배경 마스크(M_fg, M_bg)를 이용해 사전 이미지에서 배경을 추출하고, 조건 이미지에서 전경을 추출한 뒤 픽셀 단위로 합성함으로써, 모델이 처음부터 구조적 일관성을 유지하도록 한다.
두 번째 모듈인 ‘Asynchronous Drift Diffusion’은 브리지 과정에 픽셀‑별 드리프트 크기(d_map)를 도입한다. 전경 영역에는 큰 드리프트(γ_fg), 배경 영역에는 작은 드리프트(γ_bg)를 할당해 사건‑구동 변화와 계절·조명 등 미세한 시간 변화를 비동기적으로 진행한다. 수식적으로는 기존 브리지의 선형 드리프트 m_t을 d_map에 곱해 ˜m_t(i,j)=m_t·z_d(i,j) 로 변형하고, 이를 전방 확산 q(z_t|z_b,z_a) 에 삽입한다. 이렇게 하면 각 픽셀은 자신이 속한 영역에 맞는 속도로 목표 상태(z_b)로 이동하게 되며, 배경은 부드럽게 변하고 전경은 급격히 변한다.
세 번째 모듈인 ‘Drift‑Aware Denoising’은 역확산 단계에서 드리프트 맵을 명시적으로 조건으로 사용한다. denoising network ϵ_θ는 입력으로 현재 라티스 z_t, 시간 스텝 t, 사전 이미지 라티스 z_a, 그리고 드리프트 라티스 z_d를 동시에 받는다. 특히 좌표‑텍스트 조건의 경우, 텍스트 라티스와 사전 이미지 라티스를 concat하여 z_c=
댓글 및 학술 토론
Loading comments...
의견 남기기