강인한 병합 파라미터 효율적 모델 통합
초록
본 논문은 대규모 멀티모달 언어 모델(MLLM)의 파라미터 효율적 튜닝(PEFT) 방식으로 생성된 전문가 모델들을 데이터와 저장소 없이 하나의 통합 모델로 병합하는 방법인 RobustMerge를 제안한다. 저자들은 저랭크 분해와 특잇값 방향성(디렉션 로버스트니스)을 분석하여, 급격한 특잇값 차이가 병합 시 성능 저하를 일으킨다는 점을 발견하고, 불필요한 파라미터를 프루닝하고 특잇값 스케일링을 통해 작은 특잇값의 방향을 보존한다. 또한 교차‑태스크 정규화를 도입해 보지 못한 태스크에 대한 일반화 능력을 강화한다. 실험 결과, 기존 FFT 기반 병합 기법 대비 보이는 성능 향상과 함께, 새로운 태스크에서도 안정적인 성능을 유지함을 입증한다.
상세 분석
RobustMerge는 먼저 LoRA와 같은 PEFT 모듈을 저랭크 행렬 B·A 형태로 표현하고, 각 모듈에 대해 특잇값 분해(SVD)를 수행한다. 이때 특잇값의 크기는 해당 방향이 현재 태스크에서 얼마나 활용되는지를 나타내며, 큰 특잇값은 핵심 지식, 작은 특잇값은 미세 조정된 지식에 해당한다. 저자들은 여러 태스크에서 학습된 LoRA 모듈을 비교했을 때, 같은 방향이라도 특잇값 크기의 차이가 현저히 크며, 특히 작은 특잇값이 다른 태스크와 병합될 때 방향이 쉽게 뒤틀린다는 ‘디렉션 불안정성’ 현상을 확인한다. 이러한 현상은 FFT 기반 모델에서는 주로 부호 충돌(sign conflict)으로 설명되지만, PEFT에서는 값 자체의 분포가 넓어 방향성 유지가 핵심 과제로 전환된다.
이를 해결하기 위해 RobustMerge는 두 단계의 보완적 조정을 적용한다. 첫 번째는 ‘프루닝 및 스케일링’ 단계로, 특잇값이 급격히 큰 파라미터를 식별하고 이를 제거하거나 축소한다. 동시에 남은 작은 특잇값에 대해 더 큰 스케일 계수를 곱해, 작은 방향이 병합 과정에서 충분히 반영되도록 한다. 이 과정은 별도의 학습 없이 파라미터 간 상관관계만을 이용해 자동으로 수행된다. 두 번째는 ‘교차‑태스크 정규화’ 단계로, 서로 다른 태스크의 LoRA 모듈이 갖는 스케일 차이를 정규화하여, 보지 못한 태스크에 대한 일반화 성능을 높인다. 정규화는 각 모듈의 평균 및 분산을 맞추는 방식으로 구현되며, 이는 기존 방법이 필요로 하는 검증 데이터나 추가 저장소를 요구하지 않는다.
실험에서는 8개의 ‘보는’ 태스크와 4개의 ‘보지 못한’ 태스크를 포함한 멀티모달 벤치마크를 구축하고, RobustMerge가 기존 Ties‑Merging, DARE, PCB‑Merging, LoraHub 등과 비교해 보이는 성능 향상을 정량적으로 입증한다. 특히, 보지 못한 태스크에서 평균 4.5%p 상승, 보는 태스크에서는 3.4%p 상승을 기록했으며, 이는 특잇값 방향성을 보존함으로써 태스크 간 간섭을 최소화한 결과로 해석된다. 추가 실험에서는 비전 전용 태스크와 다양한 모델 크기에 대해서도 일관된 개선 효과가 확인되었다.
결론적으로, RobustMerge는 저랭크 PEFT 모듈의 고유한 파라미터 분포와 특잇값 구조를 활용해, 데이터와 추가 저장소 없이도 효율적이고 일반화 가능한 모델 병합을 가능하게 하는 혁신적인 접근법이다.
댓글 및 학술 토론
Loading comments...
의견 남기기