SimGraph: 장면 그래프 기반 이미지 생성·편집 통합 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SimGraph는 장면 그래프를 중심으로 이미지 생성과 편집을 하나의 모델에서 동시에 수행하도록 설계된 통합 프레임워크이다. 텍스트 토큰 기반 자동회귀 생성기와 확산 기반 편집기를 결합하고, 그래프‑텍스트 변환, 관계‑기반 프롬프트 생성, 공동 조건화 방식을 도입해 공간 일관성과 의미적 일치를 크게 향상시킨다. 실험 결과, 기존 장면 그래프 기반 방법들을 능가하는 이미지 품질·편집 정확도를 보였다.

상세 분석

SimGraph는 장면 그래프(Scene Graph)를 이미지 생성과 편집의 공통 제어 신호로 활용한다는 점에서 기존 연구와 차별화된다. 먼저 입력 이미지에서 MLLM(Qwen‑VL 등)을 이용해 객체와 관계를 트리플렛 형태로 추출하고, 이를 정제·정렬해 ‘캡션’ C로 변환한다. 이 캡션은 두 가지 경로에서 사용된다.

1️⃣ 토큰 기반 이미지 생성(Path‑2)에서는 CLIP으로부터 얻은 텍스트 임베딩 e_t를 조건으로 Visual AutoRegressive(VAR) 모델이 이산 시각 토큰 z₁…z_L을 순차적으로 예측한다. 여기서 VAR은 Transformer 기반 확률 모델이며, 사전 학습된 VQ‑VAE 디코더 ψ_v가 토큰 시퀀스를 픽셀 이미지 ˆI로 복원한다. 캡션에 포함된 객체 순서와 salience 점수(객체 크기·위치 기반) 덕분에 생성된 이미지가 그래프 구조와 높은 정합성을 유지한다.

2️⃣ 확산 기반 편집(Path‑3)에서는 원본 이미지 I를 VAE 인코더로 잠재 x₀에 매핑하고, 편집 전·후 그래프 G, G′에서 각각 ‘소스 프롬프트’ T_src와 ‘타깃 프롬프트’ T_tgt를 자동 생성한다. Alg. 1은 관계 트리플렛을 배경(공통)과 신규(편집)로 구분해 두 프롬프트를 구성함으로써 보존 영역과 변형 영역을 명확히 분리한다. 이후 LEDIT++(DDIM‑Inversion + UNet)에서 클래스‑프리 가이던스(CFG)를 적용해, UNet은 무조건(branch)와 T_src, T_tgt 조건(branch) 두 개를 동시에 예측하고, 가중치 w_src, w_tgt·스케일 s로 블렌딩한다. 이 과정은 배경 구조를 안정화하면서 목표 관계를 정확히 삽입한다.

핵심 혁신은 ‘단일 그래프‑구동 모델’이 두 작업을 공유한다는 점이다. 동일한 캡션 C와 프롬프트 집합을 재활용함으로써 파라미터 θ를 하나만 학습하고, 토큰‑기반 생성과 확산‑기반 편집 사이에 일관된 표현 공간을 유지한다. 손실 함수는 조건부 음성 로그우도(neg‑log‑likelihood) 형태이며, 생성에서는 Φ=VQ‑VAE 인코더, 편집에서는 Φ=디퓨전 모델의 노이즈 예측 손실을 사용한다.

실험에서는 SG2IM, SGDiff, SGEdit 등 기존 최첨단 모델들을 대상으로 정량적 지표(FID, IS, 관계 정확도)와 정성적 시각 비교를 수행했으며, SimGraph가 복잡한 관계(다중 객체·중첩 관계)에서도 공간 일관성을 유지하고, 편집 시 배경 손실을 최소화한다는 결과를 보였다. 또한, 별도의 파인튜닝 없이 단일 파이프라인으로 생성‑편집을 전환할 수 있어 추론 시간과 메모리 비용이 크게 절감된다.

전반적으로 SimGraph는 장면 그래프를 ‘통합 제어 언어’로 삼아, 텍스트‑이미지 생성과 이미지‑이미지 편집 사이의 격차를 메우는 실용적이면서도 이론적으로 견고한 접근법이라 할 수 있다.

SimGraph: 장면 그래프 기반 이미지 생성·편집 통합 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기