프롬프트 인식형 경량 어댑터로 효율적인 구조 보존 이미지 생성
초록
본 논문은 텍스트와 구조 정보를 동시에 활용하는 경량 어댑터인 Nexus Prime과 Nexus Slim을 제안한다. 기존의 ControlNet·T2I‑Adapter 계열은 어댑터가 텍스트와 독립적으로 동작해 파라미터가 과다하거나 구조‑텍스트 정합성이 떨어지는 문제를 갖는다. Nexus 어댑터는 각 블록에 크로스‑어텐션을 삽입해 프롬프트를 어댑터에 직접 전달하고, 효율적인 컨볼루션 설계로 파라미터 오버헤드를 크게 낮춘다. 실험 결과 Nexus Prime은 기존 T2I‑Adapter 대비 8 M 파라미터만 추가하면서 성능을 크게 향상시켰으며, Nexus Slim은 파라미터를 18 M 절감하면서도 최첨단 결과를 달성한다.
상세 분석
본 연구는 확산 기반 텍스트‑투‑이미지 모델에 구조‑조건을 부여하는 어댑터 설계의 두 가지 핵심 과제를 해결한다. 첫째, 어댑터가 텍스트 프롬프트와 무관하게 동작함으로써 구조 입력(스케치, 깊이맵 등)만을 최적화하고, 텍스트 의미와의 정합성을 놓치는 점을 보완한다. 이를 위해 저자는 Nexus Block이라는 기본 단위를 도입했으며, 각 블록 내부에 Stable Diffusion과 동일한 형태의 크로스‑어텐션을 삽입한다. 이 어텐션은 시각적 피처를 쿼리로, CLIP‑인코더에서 추출한 텍스트 임베딩을 키·밸류로 사용해 텍스트‑시각 정합을 실시간으로 수행한다. 결과적으로 어댑터는 구조 정보를 보존하면서도 프롬프트의 의미를 반영해 더 일관된 이미지 생성이 가능해진다.
둘째, 파라미터 효율성이다. 기존 ControlNet·ControlNet++은 어댑터 자체가 베이스 UNet과 비슷한 규모(수억 파라미터)로 설계돼 메모리·학습 비용이 크게 증가한다. Nexus Prime은 표준 3×3·1×1 컨볼루션을 겹겹이 쌓아 약 8 M 파라미터만 추가하도록 설계했으며, 채널 수를 단계적으로 확대·축소하는 하이라키 구조를 채택해 표현력을 유지한다. 반면 Nexus Slim은 그룹드·1×1 컨볼루션을 활용해 파라미터를 18 M 감소시켰지만, 동일한 크로스‑어텐션 모듈을 유지함으로써 성능 저하를 최소화한다.
수식적으로는 어댑터 입력 I_c를 픽셀‑언샤플링 후 64×64 해상도로 변환하고, K=4 단계의 변환 블록 A_k를 통과시켜 다중 스케일 피처 E_k를 만든다. 각 단계마다 스트라이드 컨볼루션 ϕ로 다운샘플링하고, 채널 수는 2배씩 증가시켜 초기 단계에서 풍부한 표현을 확보한다. 이후 Nexus Block에서 정규화(Norm) 후 텍스트 임베딩 T와의 크로스‑어텐션을 수행한다. 어텐션 출력은 잔차 연결을 통해 원 피처에 합산돼 텍스트‑조건화된 시각 피처가 된다.
실험에서는 Stable Diffusion(LDM) 기반 베이스 모델에 Nexus 어댑터를 삽입해 다양한 구조‑조건(에지, 깊이, 세그멘테이션)과 텍스트 프롬프트 조합을 평가했다. 정량적 지표(FID, CLIP‑Score)와 정성적 시각 비교에서 Nexus Prime은 기존 T2I‑Adapter 대비 FID를 평균 12% 개선했으며, Nexus Slim은 파라미터 절감에도 불구하고 FID 차이가 2% 미만에 그쳤다. 또한, 프롬프트와 구조가 상충하는 경우에도 텍스트‑우선 정합을 유지해 사용자 의도에 부합하는 결과를 생성한다.
요약하면, 이 논문은 (1) 텍스트‑인식형 크로스‑어텐션을 어댑터에 통합해 멀티모달 정합성을 강화하고, (2) 효율적인 컨볼루션 설계로 파라미터 오버헤드를 최소화한 두 가지 어댑터 변형을 제시한다. 이러한 설계는 기존 구조‑조건 이미지 생성 파이프라인의 비용·복잡성을 크게 낮추면서도 성능을 유지·향상시키는 실용적인 해결책을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기