FloorplanVLM: 이미지‑조건 시퀀스 모델로 건축 도면을 정밀 벡터화

FloorplanVLM: 이미지‑조건 시퀀스 모델로 건축 도면을 정밀 벡터화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 래스터화된 건축 평면도를 이미지‑조건 시퀀스 생성 방식으로 변환해, 구조적 일관성을 보장하는 JSON 형태의 벡터 데이터를 직접 출력하는 FloorplanVLM을 제안한다. 대규모 Floorplan‑2M 데이터와 고정밀 Floorplan‑HQ‑300K를 활용한 단계적 학습(SFT → GRPO)으로 외벽 IoU 92.52%를 달성했으며, 비맨해튼(Non‑Manhattan) 구조까지 일반화한다.

상세 분석

FloorplanVLM은 기존 픽셀‑기반 세분화와 쿼리‑기반 트랜스포머가 갖는 두 가지 근본적 한계를 동시에 극복한다. 픽셀‑기반 방법은 연속적인 벡터 그래프를 생성해야 함에도 불구하고 이산적인 히트맵을 출력하고, 후처리 히어리스틱에 크게 의존한다는 점에서 복잡한 슬랜트 벽이나 곡선 아크에 취약하다. 반면 쿼리‑기반 모델은 방 단위로 독립적인 폴리곤을 예측하지만, 공유 벽의 일관성을 보장하지 못해 구조적 갭이나 중복이 발생한다. FloorplanVLM은 이미지‑조건 시퀀스 모델링이라는 ‘픽셀‑투‑시퀀스’ 패러다임을 도입해, 입력 이미지와 프롬프트를 동시에 인코딩한 대형 VLM(Qwen2.5‑VL‑3B)을 기반으로 직접 구조화된 JSON 토큰을 생성한다. 핵심은 의존성‑순서 직렬화(dependency‑ordered serialization)이다. 먼저 전역 벽 스켈레톤을 정의하고, 각 벽에 열려 있는 문·창문을 중첩시킨 뒤, 방은 사전에 정의된 벽 식별자를 참조해 폐쇄 루프를 형성한다. 이 설계는 토큰 수준에서 토폴로지 일관성을 강제하므로, 별도의 후처리 없이도 기하학적 정확성을 확보한다.

데이터 측면에서 저자는 20 M개의 원시 도면을 구조‑인식 클러스터링으로 2 M개의 다양성‑중심 Floorplan‑2M으로 축소하고, 인간 재캡션과 합성 렌더링을 결합해 픽셀‑정밀도 300 K 샘플인 Floorplan‑HQ‑300K를 구축한다. 두 데이터셋은 기하학적 유형(맨해튼, 비맨해튼, 슬랜트, 아크)과 프리미티브 수 분포가 균형을 이루도록 설계돼, 모델이 장기적인 토폴로지와 미세한 좌표 정밀도를 동시에 학습하도록 만든다.

학습 파이프라인은 세 단계로 진행된다. 1·2단계는 Supervised Fine‑Tuning(SFT)으로 구문적 정확성과 이미지‑텍스트 정합성을 학습한다. 3단계에서는 Group Relative Policy Optimization(GRPO)이라는 강화학습 기법을 도입해, 비미분 가능한 기하학적 손실(예: 외벽 IoU, 폐쇄 루프 위반) 자체를 보상 신호로 사용한다. 이는 토큰 확률 최대화와 기하학적 최적화를 동시에 달성하게 해, 기존 MLE‑기반 VLM이 겪는 ‘geometric hallucination’ 문제를 크게 완화한다.

평가를 위해 저자는 복잡한 레이아웃을 포함한 FPBench‑2K 벤치마크를 공개하고, 외벽 IoU 92.52%와 구조적 유효성(폐쇄 루프 비율, 공유 벽 일관성)에서 기존 최첨단 픽셀‑기반 및 쿼리‑기반 방법을 크게 앞선다. 특히 비맨해튼 설계(기울어진 벽, 곡선 아크)에서도 높은 재현율을 보이며, 엔지니어링 등급 벡터 그래프 생성에 실용적 수준을 달성한다.

이 논문의 주요 기여는 (1) 이미지‑조건 시퀀스 모델링을 통한 엔드‑투‑엔드 벡터화 프레임워크, (2) 대규모·고정밀 데이터 엔진과 공개 벤치마크, (3) 비미분 기하학적 목표를 직접 최적화하는 GRPO 기반 강화학습 전략이다. 향후 건축 설계 자동화, 실내 로봇 내비게이션 지도 생성, AR/VR 콘텐츠 제작 등 다양한 도메인에 적용 가능성이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기