모든 장면을 만들다: 장면 그래프 기반 데이터 합성으로 텍스트‑투‑비전 모델을 강화하는 새로운 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 장면 그래프를 체계적으로 열거하고, 이를 캡션·질문‑답변 쌍으로 변환하는 데이터 엔진 “Generate Any Scene”을 제안한다. 합성된 데이터로 텍스트‑투‑이미지·비디오 모델을 자체 개선(self‑improving)하고, 폐쇄형 모델의 특수 능력을 오픈소스 모델에 전이(distillation)하며, 저비용 보상 모델을 구축해 정렬 성능을 높인다. 실험 결과 Stable Diffusion v1.5는 합성 데이터만으로도 기존 CC3M 파인튜닝 대비 평균 4% 향상되고, 800개 이하의 캡션만으로도 TIFA 점수가 10% 상승한다. 또한 GRPO 기반 보상 모델을 이용해 SimpleAR‑0.5B‑SFT가 DPG‑Bench에서 CLIP 기반 대비 +5%를 기록한다. 마지막으로 콘텐츠 모더레이션 데이터에도 적용해 검출 성능을 개선한다.

상세 분석

Generate Any Scene(GAS)은 장면 그래프를 핵심 데이터 구조로 삼아, “객체‑속성‑관계” 삼위일체를 28,787개의 객체, 1,494개의 속성, 10,492개의 관계, 2,193개의 전역 장면 속성으로 구성된 방대한 메타데이터 택소노미에 매핑한다. 이 택소노미는 WordNet, Wikipedia, Visual Genome, Places365 등 다양한 출처를 통합해 풍부한 의미적 커버리지를 제공한다. GAS는 네 단계 파이프라인을 갖는다. 첫째, 사용자가 정의한 복잡도(노드 수, 평균 차수, 연결 성분 수 등)와 상식적 타당성 필터를 적용해 가능한 그래프 토폴로지를 사전 열거한다. 둘째, 각 노드와 엣지를 메타데이터 풀에서 샘플링해 구체적인 객체·속성·관계를 채운다. 셋째, 장면 속성(예: 예술 스타일, 시점, 시간대)을 추가해 캡션에 풍부한 컨텍스트를 부여한다. 넷째, 결정적 그래프‑투‑텍스트 알고리즘으로 순차적 문법 규칙을 적용해 중복·지시어 오류를 최소화한 캡션을 생성한다. 필요 시 LLM 기반 패러프레이징을 선택적으로 적용하지만, 실험에서는 기본 결정적 변환이 충분히 높은 정확도와 낮은 환각률을 보였다.

핵심 혁신은 합성된 그래프로부터 자동 QA 쌍을 생성한다는 점이다. 템플릿 기반 질문(“색은 무엇인가?”, “무엇이 왼쪽에 있는가?” 등)과 정확한 정답을 매핑함으로써, 생성 이미지·비디오에 대한 VQA 점수를 즉시 계산하고, 이를 보상 모델 학습에 활용한다. 이 접근법은 인간 라벨링 비용을 거의 0에 가깝게 낮추면서도, 모든 그래프 요소를 완전하게 평가한다는 장점을 갖는다.

자기 개선(self‑improving) 실험에서는 GAS가 생성한 30,000개의 캡션을 3 epoch에 걸쳐 순차적으로 사용한다. 각 캡션당 8장의 이미지를 생성하고, VQA 점수가 가장 높은 이미지만을 선택해 상위 25%(2,500쌍)만을 파인튜닝 데이터로 삼는다. LoRA 기반 파라미터 효율적 튜닝을 적용해 Stable Diffusion v1.5를 반복적으로 개선했으며, 동일 규모의 CC3M 실데이터 파인튜닝보다 평균 4% 높은 CLIPScore·ImageReward와 비슷한 LPIPS(다양성) 지표를 달성했다.

전이(distillation) 실험에서는 DALL‑E 3이 잘 수행하는 복합 객체 생성 능력을 GAS가 식별한 “복합성 부족” 샘플에 집중 파인튜닝함으로써, Stable Diffusion v1.5의 TIFA 점수를 10% 끌어올렸다. 이는 수백 개의 합성 캡션만으로도 폐쇄형 모델의 특수 강점을 오픈소스 모델에 효율적으로 전이할 수 있음을 증명한다.

보상 모델 구축에서는 GRPO(Gradient‑Reward‑Policy‑Optimization) 알고리즘을 사용해, GAS가 만든 QA 쌍을 기반으로 한 그래프‑보상 함수를 학습했다. SimpleAR‑0.5B‑SFT에 적용한 결과, 기존 CLIP‑based 보상 대비 DPG‑Bench에서 +5% 향상된 컴포지셔널 정렬을 보였다. 이는 대규모 LLM을 이용한 보상 설계보다 훨씬 저비용이면서도 정밀한 정렬을 가능하게 한다는 점에서 의미가 크다.

마지막으로 콘텐츠 모더레이션에 GAS를 활용한 사례에서는, 합성된 복합 캡션을 이용해 ViT‑T 기반 검출기를 재학습시켰다. 교차 모델·교차 데이터 상황에서 특히 희귀 조합(예: “흑백 고양이가 레트로 게임 화면에 등장”)을 정확히 탐지하는 능력이 크게 향상되었다. 이는 생성 AI가 악용될 위험을 사전 차단하기 위한 데이터 다양성 확보 방안으로 유용하다.

전체적으로 GAS는 (1) 장면 그래프 기반 데이터 생성의 확장성, (2) 자동 QA 기반 정량적 평가·보상 설계, (3) 자기 개선 및 목표‑특화 전이라는 세 축을 결합해 텍스트‑투‑비전 모델의 컴포지셔널 일반화와 의미 정렬을 크게 끌어올린다. 향후 연구에서는 그래프‑투‑비디오 시퀀스, 3D 씬 합성, 그리고 멀티모달 대화형 에이전트에의 적용이 기대된다.

모든 장면을 만들다: 장면 그래프 기반 데이터 합성으로 텍스트‑투‑비전 모델을 강화하는 새로운 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기