적응형 랭크 프루닝으로 모델 병합 효율 극대화
초록
AdaRank는 작업 벡터의 특잇값을 동적으로 선택·제거하는 테스트‑타임 적응 기법이다. 고정된 top‑k 차원 축소가 초래하는 작업 간 간섭을 최소화하고, 각 레이어·작업마다 최적의 랭크를 학습한다. 엔트로피 최소화를 목표로 한 마스크 최적화로 라벨이 없는 테스트 데이터만으로도 성능을 크게 회복한다. 다양한 비전·언어 백본과 다중 작업 설정에서 기존 SVD 기반 병합 방법들을 일관되게 능가한다.
상세 분석
본 논문은 최근 모델 병합 연구에서 널리 사용되는 SVD 기반 저차원 근사 방식이 “큰 특잇값을 가진 상위 성분을 무조건 유지”한다는 휴리스틱에 의존한다는 점을 비판한다. 저자들은 두 가지 핵심 현상을 실험적으로 입증한다. 첫째, 상위 특잇값 성분은 해당 작업의 손실을 크게 감소시키지만, 동시에 다른 작업에 대한 간섭을 증폭시켜 전체 멀티태스크 손실을 오히려 증가시킨다. 이는 특히 작업 간 도메인 차이가 클 때 두드러지며, MNIST과 같은 단순 이미지 분류 작업의 상위 성분이 텍스처 분류와 같은 비유사 작업에 부정적 영향을 미치는 사례가 제시된다. 둘째, 작업 벡터마다 필요로 하는 유효 랭크가 크게 다르며, 이는 레이어 깊이에 따라 변동한다. 초기 레이어는 공통 특성을 많이 공유해 높은 랭크가 필요하지만, 후반 레이어는 작업 특화 정보를 담아 낮은 랭크가 충분히 표현된다. 따라서 고정된 top‑k truncation은 일부 작업에 중요한 정보를 손실하거나, 불필요한 성분을 유지해 간섭을 야기한다.
AdaRank는 이러한 문제를 해결하기 위해 각 작업·각 레이어의 특잇값마다 이진 마스크 B를 도입한다. 마스크는 해당 성분을 보존(1)하거나 제거(0)하도록 학습되며, 이를 통해 작업별·레이어별 최적 랭크를 자동으로 결정한다. 핵심은 라벨이 없는 테스트 데이터만을 이용해 엔트로피 최소화 목표를 최적화한다는 점이다. 엔트로피는 모델 출력의 불확실성을 직접 측정하므로, 다중 작업 손실과 강한 상관관계를 가진다. 저자들은 Straight‑Through Estimator( STE)를 사용해 이산 마스크를 연속적으로 근사하고, 역전파를 통해 마스크 파라미터를 업데이트한다. 최적화가 끝난 후 마스크를 이진화하여 최종 병합 모델을 구성한다.
실험에서는 ViT‑B/32, ResNet, BERT 등 다양한 백본과 412개의 작업을 조합해 성능을 평가한다. AdaRank는 기존 SVD‑k, CAR‑T, Task Arithmetic 등과 비교해 평균 정확도·F1 점수에서 12%p 향상을 보였으며, 특히 복잡한 데이터셋(예: SUN397, EuroSAT)에서 고정 랭크 방식보다 큰 이점을 나타냈다. 또한 파라미터 수는 전혀 증가하지 않아 라우터 기반 적응형 방법과 동일하거나 더 가벼운 비용으로 비슷한 성능을 달성했다.
이러한 결과는 (1) 특잇값의 절대 크기보다 다른 작업에 미치는 간섭 정도가 병합 성능에 더 중요함을, (2) 작업·레이어마다 최적의 차원 수가 다르므로 동적 랭크 선택이 필수적임을, (3) 라벨이 없는 테스트 데이터만으로도 충분히 효과적인 마스크를 학습할 수 있음을 증명한다. AdaRank는 기존 SVD 기반 병합 파이프라인에 최소한의 구현만으로 적용 가능하며, 향후 파인튜닝 없이도 다양한 멀티태스크 시나리오에 즉시 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기