주목 주파수 변조를 통한 훈련무료 디퓨전 교차 주의 제어

본 논문은 텍스트‑조건부 잠재 디퓨전 모델(LDM)에서 교차 주의가 시간에 따라 어떻게 변하는지를 정량적으로 분석하고, 이를 기반으로 훈련 없이 인퍼런스 단계에서 주의 패턴을 조절하는 새로운 방법인 Attention Frequency Modulation(AFM)을 제안한다. 먼저, 교차 주의 행렬 A_s∈ℝ^{HW×T} (HW는 공간 위치, T는 토큰 수)를 직접 사용하면 행별이 1로 정규화돼 의미 있는 공간 정보를 얻기 어렵다. 이를 해결하기 위해 각 위치 i에서 top‑K 토큰들의 확률 평균을 구해 토큰‑무관 집중 지도 S_s(i)= (1/K)∑_{j∈topK} A_s(i,j) 로 변환한다. 이 지도는 H×W 크기의 실수 행렬이 되며, 프롬프트와 시드에 관계없이 안정적인 패턴을 보인다. 다음으로, S_s에 2‑D 푸리에 변환을 적용해 스펙트럼 ˆS_s를 얻고, 절대값 제곱을 정규화해 파워 스펙트럼 P_s(f_x,f_y) 를 만든다. 반경 r=√(f_x²+f_y²) 로 구간을 나누어 B개의 방사형 빈(bin)으로 에너지 E_s(b)를 집계한다. 고주파 비율 ρ_s=∑_{r≥r_c}E_s(b) 로 정의하면, denoising 진행 u(s)=s/(S−1) 에 따라 ρ_s가 꾸준히 증가하는 것을 관찰한다. 이는 초기 단계에서는 저주파(전역적) 토큰 경쟁이 지배적이며, 후반부로 갈수록 고주파(국부적) 토큰 경쟁이 강화된다는 coarse‑to‑fine 전이를 의미한다. 특히 인코더 단계의 교차 주의가 가장 일관된 ρ_s 궤적을 보여, 제어 대상의 후보가 된다. AFM은 이러한 스펙트럼 진행을 직접 조작한다. 각 토큰 j에 대해 로그잇 L_s(:,j) 를 H×W 지도 Z_s,j 로 재구성하고 푸리에 변환해 ˆZ_s,j 를 만든다. 저주파 마스크 M_LF와 고주파 마스크 M_HF (반경 r_c 기준) 를 정의하고, 진행에 따라 스케일링 파라미터 α_LF(s)=1+λ(1−u(s))·(1+β·Ĥ_tok(s)), α_HF(s)=1+λ·u(s)·(1+γ·(1−Ĥ_tok(s))) 를 곱한다. 여기서 λ는 전체 편집 강도, β·γ는 엔트로피 기반 보정 계수이며, Ĥ_tok(s)는 현재 주의 행렬의 정규화 엔트로피(식 17)이다. 스케일링된 스펙트럼을 역푸리에 변환해 수정된 로그잇 L'_s를 얻고, softmax를 적용해 새로운 주의 행렬 A'_s를 만든다. 핵심 설계 포인트는 (1) 로그잇을 직접 편집함으로써 softmax 정규화에 의해 소멸되는 단순 스칼라 바이어스를 피한다는 점, (2) 저·고주파를 별도로 가중해 토큰 경쟁의 공간 규모를 조절한다는 점이다. 마스크를 하드 바이너리 대신 부드러운 코사인 램프로 교체하면 링잉 현상을 완화할 수 있다. 또한 DC 성분을 보존해 전체 토큰 경쟁 수준을 크게 변동시키지 않는다. 실험에서는 Stable Diffusion v1.5 모델에 AFM을 적용하고, 동일 프롬프트·시드 하에서 기존 훈련‑무료 방법인 SAG와 FreeU와 시각적 결과를 비교한다. AFM은 고주파 비율 ρ_s를 목표대로 감소시켜 late‑stage에서 발생하는 과도한 세부 파편화를 억제하고, 이미지의 전반적 의미와 일치하는 구성을 유지한다. 엔트로피 가이드를 사용하면 편집 강도가 자동으로 조절돼 결과의 변동성이 감소한다는 것이 확인되었다. 결과적으로, 논문은 (i) 디퓨전 교차 주의가 일관된 coarse‑to‑fine 스펙트럼 진행을 보인다는 새로운 관찰을 제시하고, (ii) 이 진행을 주파수‑가중 로그잇 편집으로 직접 제어할 수 있는 AFM 프레임워크를 설계·검증했으며, (iii) 엔트로피는 보조적인 게이트 역할을 수행해 편집 강도를 동적으로 조절한다는 실증적 증거를 제공한다. AFM은 모델 재학습이나 추가 파라미터 없이도 텍스트‑조건 이미지 생성 과정의 내부 동역학을 해석하고, 원하는 시각적 스타일이나 세부 수준을 정밀하게 조정할 수 있는 실용적인 툴로서의 가능성을 보여준다.

주목 주파수 변조를 통한 훈련무료 디퓨전 교차 주의 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기