다중속성 토큰을 활용한 선택적 인터리브 이미지 생성 프레임워크 SIGMA

다중속성 토큰을 활용한 선택적 인터리브 이미지 생성 프레임워크 SIGMA
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SIGMA는 기존 단일조건 통합 모델인 Bagel에 다중조건을 인터리브 형태로 입력할 수 있도록 확장한 사후학습 프레임워크이다. 스타일, 콘텐츠, 아이덴티티, 레이아웃 등 다양한 시각 속성을 나타내는 전용 토큰을 도입하고, 그룹‑스코프 어텐션 마스크를 통해 토큰‑이미지 간의 불필요한 교차 주의를 차단한다. 700K 인터리브 데이터로 사후학습한 결과, 복합 편집, 선택적 속성 전이, 레이아웃 기반 생성 등에서 기존 Bagel 대비 제어성·일관성·시각 품질이 크게 향상되었다.

상세 분석

SIGMA는 통합 이미지‑편집 모델인 Bagel의 한계를 ‘조건 결합(binding)’ 문제에서 찾는다. Bagel은 이미지‑텍스트 쌍을 하나만 받아들이므로, 여러 출처(예: 인물 사진, 스타일 레퍼런스, 레이아웃 마스크)를 동시에 활용하는 복합 작업에 취약했다. 이를 해결하기 위해 SIGMA는 두 가지 핵심 메커니즘을 제시한다. 첫째, **다중속성 토큰(Multi‑Attribute Tokens)**을 정의한다. 토큰 집합 T={Style, Subject, Identity, Layout,…}는 각 조건 이미지에 의미론적 역할을 명시한다. 이미지 특징 v_i를 추출한 뒤, 해당 토큰 τ_i와 학습 가능한 투사 행렬 W_τ를 더해 t_i=v_i+W_τ(τ_i) 형태의 토큰‑조건 임베딩을 만든다. 이렇게 하면 동일 이미지라도 ‘Style 토큰’ 아래서는 질감·브러시 스트로크를, ‘Identity 토큰’ 아래서는 얼굴 형태를 강조하도록 모델이 학습된다. 둘째, 인터리브 조건 메커니즘그룹‑스코프 어텐션 마스크이다. 텍스트와 이미지 토큰을 교차 배열(


댓글 및 학술 토론

Loading comments...

의견 남기기