훈련 없이 다중 주제 LoRA 융합을 위한 자유로운 토큰 라우팅
초록
FreeFuse는 추가 학습이나 외부 마스크 없이 여러 LoRA를 동시에 사용할 때 발생하는 특징 충돌을 해결한다. 흐름 매칭 모델의 내재된 의미 정렬을 활용해 초기 디노이징 단계에서 토큰‑레벨 라우터와 어텐션 바이어스를 자동으로 생성하고, 각 토큰이 하나의 주제 LoRA에만 영향을 받도록 제한한다. 이를 통해 정체성 보존과 구도 일관성을 동시에 달성한다.
상세 분석
FreeFuse의 핵심 아이디어는 “LoRA 출력의 공간적 제한만으로도 다중 주제 간 충돌을 완화할 수 있다”는 실험적 통찰에 기반한다. 기존 연구들은 LoRA를 재학습하거나 외부 세그멘테이션 모델을 도입해 충돌을 완화하려 했지만, 이들은 추가 비용과 복잡성을 초래한다. 논문은 먼저 LoRA 파라미터 Δθ가 모든 토큰에 무차별적으로 적용될 때, 동일 토큰이 서로 다른 주제의 업데이트를 동시에 받게 되어 특징 혼합이 발생한다는 점을 수식(1)로 명시한다. 이를 방지하기 위해 토큰 위치 p가 속한 영역 R_i에만 해당 LoRA Δθ_i를 적용하고, 다른 LoRA는 마스크 I(p∈R_i)로 차단한다.
하지만 자기‑어텐션 메커니즘을 통해 원격 토큰의 V값이 전파될 가능성을 간과할 수 있다. 저자들은 DiT 기반 흐름 매칭 모델이 보여주는 “대각 우세” 현상을 정량화한다. 초기 블록에서는 어텐션 비율이 1에 가까워 전역 컨텍스트가 필요하지만, 중·후반 블록에서는 intra‑subject 어텐션이 inter‑subject보다 7배 이상 높아지며 토큰 간 지역성(locality)이 강화된다. 이는 식(3)에서 나타나듯, 같은 영역 R_k에 속한 토큰들이 서로에게 강하게 집중하므로, 마스크된 LoRA 업데이트가 다른 영역으로 퍼지는 효과가 수학적으로 무시될 정도임을 의미한다.
FreeFuseAttn은 이러한 모델 내 지역성을 활용해 “내재 세그멘테이션”을 수행한다. 흐름 매칭 모델은 디노이징 과정 중 특히 초기‑중간 타임스텝에서 텍스트‑이미지 정렬이 가장 강하게 나타난다. 저자들은 이 시점을 선택해 cross‑attention과 token similarity를 결합한 어텐션 매핑을 추출한다. 기존 CrossAttn, ConceptAttn, SP‑Attn과 비교했을 때, FreeFuseAttn은 토큰‑레벨 유사도 행렬을 이용해 “구멍(hole)” 현상을 최소화하고, 연속적인 마스크를 생성한다. 실험적으로는 SAM3 기반의 인간 라벨 마스크와 비교해 Precision@K가 현저히 높으며, 시각화 결과에서도 토큰이 정확히 해당 주제 영역에 매핑되는 것을 확인한다.
라우팅 단계에서는 생성된 마스크를 토큰‑레벨 라우터에 입력해 각 토큰이 오직 하나의 LoRA만을 적용받도록 강제한다. 동시에 어텐션 바이어스는 해당 토큰이 가진 텍스트 임베딩과의 정렬을 강화해, 개념 간 “bleeding”을 억제한다. 이 두 메커니즘은 서로 보완적으로 작동해, 초기 레이아웃을 잡는 전역 어텐션은 유지하면서도 후반부에서는 주제별 특성이 명확히 구분된다.
FreeFuse는 ControlNet, IP‑Adapter, Style LoRA 등 기존 컨트롤 모듈과도 플러그‑인 형태로 호환된다. 추가 네트워크나 파라미터가 필요 없으며, 사용자 입력은 단순히 각 주제에 대응하는 활성화 단어(예: “a photo of
요약하면, FreeFuse는 (1) LoRA 출력의 공간적 마스킹이 충분히 충돌을 억제한다는 이론적 근거, (2) 흐름 매칭 모델의 내재 세그멘테이션을 활용한 토큰‑레벨 마스크 생성, (3) 라우터와 어텐션 바이어스를 통한 엄격한 토큰‑LoRA 독점 적용이라는 세 가지 핵심 요소를 결합한다. 이를 통해 훈련 없이도 다중 주제 텍스트‑투‑이미지 생성에서 정체성 보존과 구도 일관성을 동시에 달성한다.
댓글 및 학술 토론
Loading comments...
의견 남기기