RegMean++: 레이어 간 의존성을 활용한 차세대 모델 병합 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RegMean++은 기존 RegMean이 각 선형 레이어를 독립적으로 병합하던 한계를 극복하고, 병합 모델의 이전 레이어 출력(활성화)을 이용해 intra‑ 및 cross‑layer 의존성을 명시적으로 반영한다. 이를 통해 닫힌 형태의 해를 유지하면서도 예측 정확도와 ID·OOD 일반화, 순차 병합, 대규모 작업에서의 견고성을 크게 향상시킨다.

상세 분석

RegMean은 선형 레이어마다 입력 피처 행렬 X와 가중치 W에 대해 ‖X W_M − X W_i‖²와 정규화 항을 최소화하는 회귀 문제를 설정하고, 이를 닫힌 형태로 풀어 W_M = (∑ bG_i)⁻¹ ∑ bG_i W_i 와 같은 해를 얻는다. 이때 X 는 각 후보 모델의 바로 전 레이어 출력으로 정의되므로, 서로 다른 후보 모델이 생성한 피처 분포가 병합 과정에 그대로 반영된다. 그러나 이러한 설계는 “전이된” 피처가 실제 병합 모델에서 어떻게 변형되는지를 무시한다는 근본적인 결함을 가진다. 딥 네트워크는 비선형 활성화(GELU, ReLU 등)와 LayerNorm 등으로 구성된 복합 경로를 갖으며, 앞 레이어의 작은 변동이 뒤 레이어의 출력에 비선형적으로 증폭될 수 있다. 따라서 후보 모델들의 X 를 그대로 사용하면, 병합 모델이 실제 테스트 시에 경험하게 될 피처와 차이가 발생해 일반화 성능이 저하된다.

RegMean++은 이 문제를 해결하기 위해 X(l,j)i 를 “후보 모델 f_i 의 전 레이어 출력”이 아니라 “병합 모델 f_M 의 전 레이어 출력”으로 재정의한다. 구체적으로, 알고리즘 1에서 각 레이어 l 에 대해 이전 병합 레이어 f{l‑1}^M 에 입력 데이터를 전달해 활성화를 얻고, 이를 X(l,j)_i 로 사용한다. 이렇게 하면 G(l,j)_i = X(l,j)_iᵀ X(l,j)_i 가 병합 모델 자체의 피처 통계에 기반하므로, 회귀 해 W_M 가 실제 병합 경로를 반영한다. 이 과정은 추가적인 순전파를 필요로 하지만, 최종 병합 단계는 RegMean과 동일한 O(K·J·d²) 복잡도를 유지한다.

실험에서는 Vision Transformer(ViT)와 LLaMA‑3 기반 언어 모델을 대상으로 8개 이미지 분류·12개 언어·다중 태스크 벤치마크를 사용하였다. RegMean++은 RegMean 대비 평균 정확도 0.7~2.5%p 상승을 보였으며, 특히 OOD 데이터와 분포 이동(노이즈, 스타일 변형) 상황에서 안정적인 성능을 유지했다. 레이어별 분석 결과, 중간·깊은 트랜스포머 레이어의 선형 파라미터만을 이용해도 98% 이상의 원본 정확도를 유지하고, 초반 레이어는 병합에 크게 기여하지 않음이 확인되었다. 또한 MLP 파라미터를 사용한 병합이 어텐션 헤드 파라미터보다 일관적으로 우수했다.

다른 최신 병합 기법(Model Soups, Task Arithmetic, TIES‑Merging, TSV‑M, Iso‑C/CTS, Fisher Merging, AdaMerging, DOGE‑AM 등)과 비교했을 때, RegMean++은 대부분의 경우 최고 또는 준최고 성능을 기록했으며, 특히 연속적인 순차 병합(점진적 모델 추가)과 대규모 파라미터(수억~수십억) 상황에서도 메모리·시간 효율성을 유지했다. 한편, RegMean++은 비선형 레이어(예: LayerNorm)의 파라미터를 단순 평균으로 병합하기 때문에, 이러한 레이어가 중요한 도메인에서는 추가적인 정교화가 필요할 수 있다.

요약하면, RegMean++은 “병합 모델 자체의 피처 흐름을 이용한 회귀 기반 가중치 병합”이라는 간단하면서도 강력한 아이디어를 도입해, 기존 닫힌 형태 해의 해석 가능성과 계산 효율성을 보존하면서도 실제 모델 동작을 더 정확히 모사한다. 이는 모델 병합 연구에서 데이터‑프리 접근법의 한계를 넘어, 레이어 간 상호작용을 정량화하는 새로운 패러다임을 제시한다.

RegMean++: 레이어 간 의존성을 활용한 차세대 모델 병합 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기