모델 병합 성공을 예측하는 해석 가능한 특성 탐구
초록
본 논문은 모델 병합이 단순히 모델 자체의 고유 특성에 의해 결정되는 것이 아니라, 사용된 병합 방법과 파트너 작업에 크게 의존한다는 점을 실증한다. 28개의 가중치·활성·그래디언트 기반 메트릭을 선형 최적화하여 각 병합 알고리즘별 성공 “지문”을 도출하고, 서브스페이스 겹침과 그래디언트 정렬이 모든 방법에 공통적으로 필요한 기본 조건임을 밝혀낸다.
상세 분석
이 연구는 모델 병합을 “내재적 mergeability”라는 단일 스칼라로 환원하는 기존 패러다임에 근본적인 반론을 제시한다. 저자들은 아키텍처와 무관하게 적용 가능한 프레임워크를 구축하고, 네 가지 대표적인 병합 기법(Task Arithmetic, Weight Averaging, Task Singular Vector, Isotropic merging)을 대상으로 28개의 해석 가능한 쌍(pairwise) 메트릭을 정의한다. 메트릭은 크게 다섯 그룹으로 구분된다: (1) 작업 벡터 기하학(코사인 유사도, L2 거리, 각도, 크기 비율 등), (2) 효과적 랭크(특잇값 엔트로피, 스펙트럼 갭 등), (3) 서브스페이스 겹침(특잇값 겹침, 좌·우 서브스페이스 겹침, 인터랙션 매트릭스), (4) 활성값 기반(활성 L2 거리, 코사인 유사도 등), (5) 그래디언트 기반(인코더·입력 그래디언트 코사인, L2 거리, 내적).
각 메트릭은 정규화 후 선형 모델에 입력되어, 병합 후 성능(두 작업에 대한 평균 정확도 비율)과의 피어슨 상관을 최대화하도록 가중치를 학습한다. 최적화는 Adam을 사용하고, 가중치 합이 1이 되도록 제약을 두어 해석 가능성을 확보한다. 결과적으로 각 병합 방법마다 최적 가중치 벡터가 달라 “성공 지문”이 형성된다. 예를 들어, Task Arithmetic에서는 작업 벡터 코사인과 효과적 랭크가 큰 양의 기여를 하는 반면, Weight Averaging에서는 서브스페이스 겹침과 입력 그래디언트 정렬이 핵심 요인으로 부각된다.
흥미로운 점은 메트릭 간 중복도와 부호 일치율이 방법마다 크게 차이나는 것이다(중복 46.7%, 부호 일치 55.3%). 이는 동일 메트릭이 어떤 경우에는 긍정적, 다른 경우에는 부정적 영향을 미칠 수 있음을 의미한다. 그러나 모든 방법에서 서브스페이스 겹침과 그래디언트 정렬 메트릭은 일관되게 높은 양의 가중치를 받아, 모델 간 구조적·학습적 호환성을 보장하는 기본 전제조건임을 확인한다.
또한 저자들은 선형 모델이 MLP 기반 블랙박스 모델과 비슷한 예측 성능(r∈
댓글 및 학술 토론
Loading comments...
의견 남기기