멀티모달 확산 모델을 활용한 도시 형태 종합 생성 프레임워크
초록
본 논문은 이미지, 텍스트, 메타데이터, 건물 풋프린트를 포함한 4가지 모달을 결합한 대규모 데이터셋을 기반으로, 향상된 ControlNet 구조와 CLIP 텍스트 인코더를 이용해 도시 형태를 고해상도 건물 풋프린트로 생성하는 ControlCity 모델을 제안한다. 실험 결과, 단일 모달 기반 베이스라인 대비 시각적 오류(FID) 71 % 감소, 공간 겹침(MIoU) 38 % 향상을 달성했으며, 도시 간 스타일 전이와 미지 도시 제로샷 생성에서도 강인한 일반화 능력을 보였다.
상세 분석
ControlCity는 기존 도시 형태 생성 연구가 갖는 “기하학적 모방” 한계를 극복하기 위해 멀티모달 정보를 통합한 확산 모델을 설계하였다. 데이터 측면에서 저자들은 22개 전 세계 도시의 도로망·토지 이용 이미지, 위키피디아 기반 텍스트 설명, 위도·경도 메타데이터, 그리고 목표 건물 풋프린트를 정밀히 정렬한 ‘이미지‑텍스트‑메타데이터‑풋프린트’ 4중 데이터셋을 구축하였다. 모델 아키텍처는 크게 세 부분으로 구성된다. 첫째, 이미지 모달은 강화된 ControlNet을 통해 공간 제약을 ‘뼈대’로 인코딩하고, UNet의 중간 레이어에 zero‑conv 형태로 주입한다. 둘째, 텍스트는 사전학습된 CLIP 텍스트 인코더로 변환되어 교차‑어텐션 메커니즘을 통해 의미적 지시를 제공한다. 셋째, 메타데이터는 사인파 임베딩으로 변환돼 전역 컨텍스트를 모델에 전달, 지역별 건축 양식·밀도 차이를 반영한다. 이러한 세 모달의 신호는 확산 과정의 각 타임스텝에서 결합되어, 노이즈를 점진적으로 제거하면서 목표 건물 풋프린트를 복원한다. 실험에서는 동일한 UNet 기반 베이스라인에 각각 이미지·텍스트·메타데이터를 단독으로 추가했을 때의 성능 변화를 Ablation Study로 제시했으며, 이미지가 물리적 레이아웃을, 텍스트가 기능·스타일을, 메타데이터가 지역적 맥락을 담당한다는 결론을 도출했다. 또한, FID 50.94, MIoU 0.36이라는 정량적 지표와 ∆ Site Cover 오차 3.82 % 등 기존 GANmapper·InstantCITY 대비 현저히 우수한 결과를 보고하였다. 제로샷 실험에서는 훈련에 포함되지 않은 도시의 좌표만 입력해도 의미 있는 건물 배치를 생성했으며, 텍스트 프롬프트를 바꾸어 스타일 전이도 원활히 수행되었다. 전반적으로 ControlCity는 멀티모달 융합이 도시 형태 생성의 의미적·맥락적 이해를 가능하게 함을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기