프리트레인 모델 간 작업 벡터 전송을 위한 그래디언트 부호 마스킹
초록
GradFix는 기존 모델에서 얻은 작업 벡터를 새로운 사전학습 모델에 그대로 적용하는 대신, 목표 모델의 손실 그래디언트 부호를 이용해 벡터를 마스킹한다. 이 과정은 몇 개의 라벨된 샘플만으로 수행되며, 파라미터 업데이트 없이도 1차 손실 감소를 보장한다. 실험 결과, 비전·언어 벤치마크에서 기존 작업 벡터 더하기와 소수 샷 파인튜닝을 크게 능가했으며, 다중 작업·다중 소스 모델 병합에서도 효과를 입증했다.
상세 분석
GradFix의 핵심 아이디어는 “그래디언트 부호는 손실 함수의 하강 방향을 강건하게 근사한다”는 사실에 기반한다. 기존 작업 벡터 τ_A는 원본 모델 A를 특정 태스크에 맞게 조정한 파라미터 차이이며, 이를 그대로 모델 B에 더하면 B의 파라미터 공간과 손실 지형이 다르기 때문에 손실을 증가시키는 위험이 있다. 논문은 이를 해결하기 위해 B의 현재 파라미터 θ_B에서 손실 L(θ) 의 그래디언트 g=∇_θ L(θ_B)를 계산하고, −g의 부호와 τ_A의 부호가 일치하는 좌표만을 선택하는 마스크 m을 만든다. 수식 (4)에서 정의된 m_i=1{sign(τ_A,i)=sign(−g_i)}는 좌표별로 “유용한” 방향만을 통과시키고, 나머지는 0으로 차단한다. 이렇게 마스크된 벡터 δ_A=α·(m⊙τ_A)는 파라미터 업데이트 없이 θ_B에 직접 더해지며, 1차 테일러 전개 L(θ_B+δ_A)≈L(θ_B)+g^Tδ_A에서 g^Tδ_A≤0임을 보인다. 따라서 충분히 작은 스케일 α에 대해 손실이 감소한다는 일차적 보장을 제공한다.
데이터가 제한된 상황에서도 GradFix는 강건하다. 소수의 라벨 샘플 D_s를 이용해 각 좌표의 그래디언트 부호를 다수결로 추정한다(식 9). Hoeffding 부등식을 이용한 Lemma는 N개의 샘플이 늘어날수록 추정 부호가 실제 −g와 일치할 확률이 지수적으로 수렴함을 증명한다. 즉, 몇 개의 샘플만으로도 신뢰할 수 있는 마스크를 얻을 수 있다.
실험에서는 CLIP, ViT, BERT 등 최신 비전·언어 사전학습 모델을 대상으로, 기존 모델 A와 최신 모델 B 사이에 작업 벡터를 전송하였다. GradFix는 “naïve addition”(τ_A 그대로 더하기)와 “few‑shot fine‑tuning”(수십수백 샘플로 전체 파라미터 업데이트)보다 높은 정확도·F1 점수를 기록했으며, 특히 데이터가 510개 정도일 때도 손실 감소와 성능 향상이 뚜렷했다. 또한 다중 작업 시 여러 τ_A를 각각 마스크한 뒤 합치는 “task‑vector merging”에서도 기존 방법 대비 충돌을 감소시켜 최종 모델의 일반화 능력을 높였다.
이 논문은 두 가지 중요한 의미를 가진다. 첫째, 파라미터 공간이 서로 다른 사전학습 모델 간에도 그래디언트 부호만으로 손실 지형을 정렬할 수 있다는 점을 실증했다. 둘째, 전통적인 모델 재배치(re‑basin)처럼 복잡한 퍼뮤테이션 정렬 없이도 간단한 마스크 연산만으로 작업 지식을 효율적으로 이전할 수 있음을 보여준다. 이 접근법은 대규모 파운데이션 모델이 빈번히 업데이트되는 현실에서 파인튜닝 비용을 크게 절감하고, 저자원 환경에서도 최신 모델을 빠르게 활용할 수 있게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기