360도 파노라마 편집을 위한 통합 프레임워크 월드쉐이퍼
초록
World‑Shaper는 equirectangular(ERP) 형태의 파노라마를 직접 다루는 확산 기반 편집 모델이다. 생성‑후‑편집 파이프라인으로 대규모 쌍(pair) 데이터를 자동 생성하고, 위치‑인식 형태 제약과 점진적 커리큘럼 학습을 결합해 위도에 따라 달라지는 왜곡을 보정한다. 새롭게 만든 PEBench 벤치마크에서 기존 cube‑map 기반 방법보다 전역 일관성·편집 정확도·텍스트 제어 능력이 크게 향상되었다.
상세 분석
World‑Shaper는 파노라마 이미지 편집이라는 특수한 문제를 두 가지 핵심 난관—(1) ERP 이미지의 비선형 왜곡, (2) 지도학습에 사용할 수 있는 충분한 쌍 데이터의 부재—을 동시에 해결한다. 첫 번째 난관에 대해서는 기존의 cube‑map 분할 방식이 전역적인 기하학적 일관성을 깨는 점을 지적하고, ERP 도메인에서 직접 학습하도록 설계하였다. 이를 위해 모델 내부에 ‘위치‑인식 형태 제약(position‑aware shape constraint)’ 모듈을 삽입했는데, 이는 입력 이미지와 출력 이미지의 라티튜드‑롱티튜드 좌표에 따라 가중치를 다르게 부여하는 왜곡‑인식 어텐션 메커니즘이다. 라티튜드가 높아질수록 픽셀 간 거리와 면적이 비례적으로 늘어나므로, 형태 마스크를 라티튜드에 맞춰 스케일링하고, 해당 스케일된 마스크를 손실 함수에 직접 포함시켜 객체 경계가 왜곡 없이 유지되도록 강제한다.
두 번째 난관인 데이터 부족 문제는 ‘생성‑후‑편집(generate‑then‑edit)’ 파이프라인으로 해결한다. 먼저, 텍스트와 바운딩 박스, 레퍼런스 이미지 등을 조건으로 받아 ERP 파노라마를 생성하는 ‘통제 가능한 파노라마 생성기’를 학습한다. 이 생성기는 다양한 객체 삽입·삭제·이동·교체·변형 시나리오를 자동으로 만들어내며, 각 시나리오마다 원본 파노라마(I_src), 편집 명령(P_edit), 목표 파노라마(I_tgt)라는 삼중항 데이터를 생성한다. 여기서 GPT‑5를 활용해 객체 설명과 텍스트 프롬프트를 자동 생성하고, 레퍼런스 이미지를 웹에서 수집해 조건에 맞게 매핑한다. 이렇게 구축된 대규모 데이터셋 D는 편집 모델 E의 지도 학습에 사용된다.
학습 전략은 ‘점진적 커리큘럼(progressive curriculum)’을 적용한다. 초기 단계에서는 전체 파노라마를 생성·편집하는 전역 작업에 집중하고, 점차 객체 수준의 미세 조정 작업으로 전환한다. 이 과정에서 모델은 자연스럽게 ERP 특유의 위도‑의존 왜곡 패턴을 내부화하게 되며, 이후 실제 편집 단계에서 위치‑인식 형태 제약과 결합되어 높은 기하학적 일관성을 보인다.
실험에서는 새롭게 제안한 PEBench(다양한 실내·실외 파노라마와 5가지 편집 유형을 포함)에서 정량적 지표(FID, LPIPS, Geometry Consistency Score)와 정성적 평가 모두에서 기존 SOTA인 SE360·Omni2와 비교해 평균 12%~18% 향상을 기록했다. 특히 텍스트 기반 제어 정확도는 CLIP‑Score 기준으로 0.84에서 0.92로 상승했으며, 위도별 왜곡 보정 효과는 시각적 비교에서 경계가 끊기거나 왜곡되는 현상이 현저히 감소한 것으로 확인되었다.
추가적으로, World‑Shaper는 3D 월드 확장 가능성을 염두에 두고 설계되었으며, ERP 이미지와 연동된 깊이 맵이나 메쉬 정보를 입력으로 받을 수 있는 확장 모듈을 제안한다. 이는 향후 VR/AR 환경에서 실시간 씬 편집이나 동적 객체 삽입 등에 활용될 수 있다. 전체적으로, ERP‑네이티브 접근, 자동 데이터 생성 파이프라인, 위치‑인식 형태 제약, 점진적 학습이라는 네 가지 핵심 요소가 결합돼 360° 파노라마 편집 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기