레이어바인드 텍스트투이미지 디퓨전 트랜스포머 지역 및 가림 제어
초록
LayerBind는 사전 학습된 Diffusion Transformer(DiT) 모델에 추가 학습 없이 적용할 수 있는 플러그인 방식의 레이아웃 및 가림 제어 기법이다. 초기 디노이징 단계에서 각 객체를 별도 레이어(인스턴스)로 분리하고, 컨텍스트 공유 기반의 공동 어텐션을 이용해 배경과 연결한다. 지정된 순서대로 레이어를 결합한 뒤, 이후 단계에서 레이어‑별 로컬 어텐션을 강화해 세부 디테일을 보강하고 가림 관계를 유지한다. 결과적으로 고품질 이미지를 유지하면서 정확한 위치와 가림 순서를 제어할 수 있다.
상세 분석
LayerBind는 텍스트‑투‑이미지 생성에서 “지역‑지시 레이아웃”과 “객체 가림 순서”라는 두 가지 핵심 요구를 동시에 만족시키기 위해, 디퓨전 트랜스포머의 denoising dynamics를 정밀히 분석한 뒤 설계되었다. 논문은 레이아웃이 초기 노이즈 단계에서 급격히 형성된다는 관찰을 기반으로, 초기 단계에서 레이어‑별 인스턴스 토큰을 생성하고 이를 배경 토큰과 공유하는 “컨텍스트 공유 메커니즘”을 도입한다. 구체적으로, 각 레이어 i에 대해 공간 cue C(i)와 텍스트 프롬프트 T_reg(i)를 매핑하고, 초기 노이즈 x_T에서 해당 토큰 인덱스 idx(i)를 복사해 인스턴스 브랜치 B(i)를 만든다. 이후 DiT 블록 내부에서 공동 어텐션(Joint‑Attention) 대신 “Contextual Attention”을 사용해 B(i)와 배경 이미지 토큰 e_I^bg, 그리고 지역 텍스트 e_T^reg(i)를 연결한다. 이 과정은 Eq. 5 와 같이
ĥe_B(i) ← A_update(e_B(i),
댓글 및 학술 토론
Loading comments...
의견 남기기