테스트 시점 인스턴스별 파라미터 합성: 적응형 생성 모델의 새로운 패러다임

Composer는 입력 조건에 따라 테스트 시점에 가중치를 동적으로 보정하는 메타‑생성기이다. 사전 학습된 생성 모델의 파라미터에 저‑랭크 업데이트 \(AB\)를 합성해 각 입력마다 특화된 가중치를 만들며, 이를 한 번의 전방 패스로 적용한다. 실험 결과, 기존 정적 모델 대비 FID가 크게 개선되고, 추론 시간·메모리 오버헤드는 거의 발생하지 않는다.

저자: Minh-Tuan Tran, Xuan-May Le, Quan Hung Tran

테스트 시점 인스턴스별 파라미터 합성: 적응형 생성 모델의 새로운 패러다임
본 논문은 이미지·텍스트 생성 분야에서 널리 사용되는 Diffusion 및 Auto‑Regressive 모델이 사전 학습된 고정 파라미터 집합을 모든 입력에 일관되게 적용한다는 근본적인 한계를 지적한다. 인간은 상황에 따라 내부 표현을 유연하게 재구성하듯, 모델도 입력별로 가중치를 조정할 필요가 있다는 직관에서 ‘Composer’라는 새로운 적응형 생성 모델 패러다임을 제안한다. Composer는 테스트 시점에 입력‑조건부 파라미터 업데이트를 생성하는 메타‑생성기이다. 구체적으로, 사전 학습된 백본 모델의 특정 가중치 행렬 \(W\)에 저‑랭크 행렬 \(A\in\mathbb{R}^{d\times r}\)와 \(B\in\mathbb{R}^{r\times d}\)를 곱한 \(AB\)를 합성해 \(W' = W + AB\)를 만든다. 여기서 \(r\)은 차원 \(d\)에 비해 매우 작아 연산·메모리 비용을 최소화한다. ‘인스턴스‑특정 파라미터 생성기’는 다음 과정을 거친다. 1) 사전 학습된 Transformer의 Query \(W_Q\)와 Value \(W_V\) 행렬을 선형 변환해 \(2r\)개의 토큰 \(A_0, B_0\)를 만든다. 2) 각 토큰에 위치 임베딩을 더하고, 입력 프롬프트 토큰 \(P\)와 결합한다. 3) Encoder‑style Transformer에 입력해 로컬 블록‑와드 어텐션과 첫 토큰을 통한 글로벌 어텐션을 혼합해 토큰 간 상호작용을 모델링한다. 4) 최종 레이어에서 얻은 토큰을 재구성해 \(A, B\)를 복원하고, 이를 \(W\)에 합성한다. 학습 단계에서는 \(W'\)를 사용해 기존 Diffusion 손실을 역전파함으로써 \(A, B\)가 입력에 맞게 최적화된다. 추론 단계에서는 선형 변환을 제거하고 저장된 \(A_0, B_0\) 토큰만 사용해 \(AB\)를 한 번의 전방 패스로 빠르게 생성한다. 효과적인 학습을 위해 저자는 ‘컨텍스트‑어웨어 파이프라인’을 설계한다. 배치 내에서 α 비율만큼 동일 클래스·유사 프롬프트 샘플을, 나머지는 서로 다른 클래스·다양한 샘플을 섞어 사용한다. 이는 인스턴스‑특정 적응성을 유지하면서도 전체 데이터 다양성을 보존한다. 텍스트‑투‑이미지 작업에서는 CLIP 임베딩 기반 유사도 샘플링을 적용해 보다 정교한 컨텍스트 일관성을 확보한다. Composer는 경량·양자화 모델에도 확장 가능하다. 양자화된 백본 \(W_q\)에 저‑랭크 업데이트와 스케일링 파라미터 γ를 저정밀도 환경에서 학습시켜, 양자화 오차를 입력‑조건부로 보정한다. 이를 통해 INT8·INT4 양자화 모델에서도 원본 품질에 근접하거나 일부 회복된 성능을 얻을 수 있다. 실험에서는 ImageNet‑256 클래스 조건 생성, 텍스트‑투‑이미지, 경량·양자화 백본, 테스트‑타임 스케일링 등 다양한 시나리오를 평가하였다. Composer를 적용한 모델은 FID 점수에서 평균 5~10% 개선을 보였으며, IS·CLIP‑Score 등 다른 지표에서도 유의미한 상승을 기록했다. 특히, 테스트‑타임 트레이닝과 비교했을 때 추론 시간은 0.2% 정도만 증가하고, 메모리 사용량도 3~4% 정도 상승에 그쳐, 실용적인 효율성을 입증했다. 본 논문의 주요 기여는 다음과 같다. (1) 사전 학습된 생성 모델에 구조적 변형 없이 인스턴스‑별 파라미터 합성을 가능하게 하는 Composer 프레임워크 제안, (2) 입력 조건을 토큰화해 저‑랭크 업데이트를 생성하는 Transformer‑기반 메타‑생성기 설계 및 컨텍스트‑어웨어 학습 파이프라인 도입, (3) 다양한 백본과 양자화 설정에 대한 광범위한 실험을 통해 적응형 파라미터 합성이 생성 품질을 크게 향상시킴을 입증. 결론적으로, Composer는 ‘정적 파라미터 → 입력‑조건부 동적 파라미터’ 전환을 통해 생성 모델이 인간과 유사하게 상황에 맞게 내부 표현을 재구성하도록 만든다. 이는 대규모 사전 학습 모델을 다양한 도메인·제약 조건에 빠르게 전이시키는 새로운 길을 열며, 향후 생성 AI 연구에서 적응형 파라미터 설계가 핵심적인 역할을 할 가능성을 시사한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기