층별 적응형 스케일링으로 모델 병합 효율 극대화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
LARV는 데이터와 학습 없이 모든 기존 task‑vector 병합 기법에 적용 가능한 층별 스케일링 베니어이다. 각 레이어의 정보 풍부도와 충돌 정도를 무게‑전용 지표(eℓ, cℓ)로 추정하고, 이를 기반으로 얕은 층은 축소, 깊은 층은 강화하는 스케일 sℓ을 부여한다. 실험 결과 Vision Transformer 기반 FusionBench에서 8·14·20‑task 설정 모두 기존 병합 방법보다 일관된 성능 향상을 보이며, 특히 얕은 층의 간섭을 억제하고 깊은 층의 특화된 특징을 증폭한다.
상세 분석
LARV(Layer‑wise Adaptive Rescaling Veneer)는 기존의 task‑vector 병합이 전역 스칼라 s만을 사용해 모든 레이어를 동일하게 취급하는 한계를 극복한다. 저자는 두 가지 데이터‑프리 메트릭을 제안한다. 첫 번째는 Effective‑Rank Contrast(eℓ)로, 기본 모델 가중치 θ₀,ℓ와 병합된 업데이트 Δθℓ의 스펙트럼 엔트로피를 비교해 업데이트가 얼마나 저차원(즉, 정보‑집중)인지를 측정한다. eℓ가 클수록 Δθℓ가 구조화된 신호를 담고 있음을 의미한다. 두 번째는 Commutator Conflict Coefficient(cℓ)로, 기본 연산자와 업데이트 사이의 비가환성을 ‖
댓글 및 학술 토론
Loading comments...
의견 남기기