BLENDER: 텍스트 임베딩과 디퓨전 잔차를 결합한 클래스 내부 이미지 합성 기법
초록
BLENDER는 텍스트 임베딩 보간과 디퓨전 모델의 잔차에 집합론적 합·교 연산을 적용해, 딥 메트릭 러닝에서 클래스 내부 다양성을 제어적으로 확대한다. Union 연산은 여러 프롬프트에 나타나는 속성을 모두 강화하고, Intersection 연산은 공통된 방향을 추출한다. 실험 결과 CUB‑200과 Cars‑196에서 기존 최첨단 방법 대비 Recall@1을 각각 3.7%·1.8% 향상시켰다.
상세 분석
BLENDER는 기존 텍스트‑투‑이미지 디퓨전 모델이 DML(Deep Metric Learning) 데이터 증강에 활용될 때 겪는 두 가지 주요 문제—속성 다양성 부족과 라벨 노이즈—를 동시에 해결하려는 시도이다. 첫 번째 핵심 아이디어는 “텍스트 임베딩 보간(TEI)”이다. 목표 클래스 프롬프트와 속성 기부자 프롬프트를 시간에 따라 가중치를 조절하며 혼합함으로써, 초기 디노이징 단계에서 속성 방향을 잠재 공간에 미리 주입한다. 이는 속성 전이가 자연스럽게 이루어지게 하면서도 클래스 고유의 의미는 유지한다.
두 번째 핵심은 “잔차 집합 연산(RSO)”이다. 디퓨전 모델의 U‑Net이 각 프롬프트에 대해 예측한 노이즈 잔차 ε_i 를 기준으로, Union 연산은 선택된 프롬프트 집합 I∪ 에서 모든 잔차를 정규화 후 평균하여 R∪ 를 만든다. 이는 “하나라도 포함된 속성”을 강화하는 효과를 제공한다. 반면 Intersection 연산은 집합 I∩ 에 속한 잔차들을 행렬 M 으로 쌓아 첫 번째 주성분(v₁)을 추출하고, 평균 잔차 µ 를 v₁ 에 투영해 R∩ 를 만든다. 이는 “모두가 공유하는 공통 방향”을 강조한다. 두 연산은 시간‑가변 가중치 β∪(t), β∩(t) 로 스케줄링되어 디노이징 과정 전반에 걸쳐 점진적으로 적용된다. 또한, 기존의 Classifier‑Free Guidance(r_cfg)와 직교하도록 정규화·클램프함으로써 과도한 스티어링을 방지한다.
BLENDER는 이러한 두 단계(TEI와 RSO)를 결합해, 속성 다양성을 크게 확대하면서도 클래스 레이블의 일관성을 유지한다. 실험에서는 Stable Diffusion 기반 LoRA‑personalized 모델에 BLENDER를 적용해, CUB‑200‑2011과 Cars‑196 데이터셋에서 ResNet‑50, ViT‑Base 등 다양한 백본에 대해 Recall@1, Recall@5, NMI 등 전반적인 메트릭이 기존 데이터 증강 기법(예: CutMix, DDIM‑Inversion, I2I 기반 방법)보다 우수함을 입증했다. 특히, Union 연산이 속성 파라프레이즈가 다양할 때 강인성을 제공하고, Intersection 연산이 속성 간 일관성을 보존하는 데 기여한다는 정성적 분석도 포함된다.
한계점으로는 (1) 잔차 집합 연산이 고차원 공간에서 계산 비용이 다소 높으며, 특히 대규모 프롬프트 집합을 사용할 경우 SVD 단계가 병목이 될 수 있다. (2) 현재 구현은 텍스트‑투‑이미지 디퓨전 모델에 특화돼 있어, VAE‑기반 GAN 등 다른 생성 모델에 직접 적용하기는 어려울 수 있다. (3) 속성 선택이 사전 지식에 의존하므로, 자동화된 속성 탐색 메커니즘이 추가된다면 더욱 일반화가 가능할 것이다. 전반적으로 BLENDER는 DML용 데이터 증강에 있어 “속성 다양성 vs. 클래스 일관성” 트레이드오프를 수학적으로 정의하고, 실험적으로 검증한 의미 있는 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기