모델 병합 방법 평가를 위한 행동·내부 통합 파이프라인

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 여러 언어 모델을 가중치 병합하는 다양한 방법을 적용한 뒤, 행동(벤치마크 성능)과 내부 표현(언어 현상 프로빙) 두 관점에서 체계적으로 평가하는 파이프라인을 제안한다. Qwen2.5 7B 계열의 Instruction, Math, Code 모델을 대상으로 실험한 결과, 병합 모델은 일반적으로 두 부모 모델 사이의 성능을 보이지만, 형태론·구문론 등 구조적 언어 지식은 부모 모델을 능가하는 경우가 많았다. 행동과 내부 평가지표 간의 순위 상관관계는 약해, 단일 관점만으로는 병합 모델의 진정한 능력을 파악하기 어렵다는 결론을 도출한다.

상세 분석

이 연구는 모델 병합이라는 실용적 문제에 대한 평가 프레임워크를 세 단계로 나눈다. 첫 번째 단계에서는 MergeKit을 활용해 Linear, SLERP, Task Arithmetic, TIES, DARE‑TIES 등 다섯 가지 대표적인 병합 기법을 적용한다. 각 기법은 복잡도, 전력 소모, 다중 모델 지원 여부 등에서 차별화되며, 특히 TIES와 DARE‑TIES는 파라미터 충돌을 최소화하기 위해 복잡한 정규화와 희소화 과정을 포함한다. 두 번째 단계에서는 두 종류의 평가지표를 자동화한다. 행동 평가는 LM‑Harness (다양한 실세계 벤치마크: BBH, Math Hard, MUSR, GPQA, MMLU‑PRO)를 사용해 모델의 외부 성능을 측정하고, 내부 평가는 Holmes (Flash‑Holmes) 프로빙을 통해 마지막 레이어의 표현을 선형 분류기로 학습시켜 형태론, 구문론, 의미론, 추론, 담화 등 160여 개 과제를 정량화한다. 세 번째 단계에서는 행동 점수와 내부 프로빙 점수 간의 상관관계를 분석한다. 실험 결과, 병합 모델은 대부분 행동 측면에서 두 부모 모델 사이에 머무르며, 특히 복잡한 수학 문제(MATH Hard)에서는 어느 한쪽 부모보다도 낮은 성능을 보였다. 반면 내부 프로빙에서는 특히 SLERP와 Linear 같은 단순 병합 방법이 형태론·구문론 지표에서 부모 모델을 초과했으며, TIES와 DARE‑TIES는 오히려 내부 지식 손실을 야기하는 것으로 나타났다. 이러한 차이는 파라미터 충돌 해결 전략이 모델의 구조적 지식 보존에 부정적 영향을 줄 수 있음을 시사한다. 또한 행동과 내부 평가지표 간의 순위 상관계수는 낮아, 두 평가지표가 서로 독립적인 정보를 제공한다는 점을 확인했다. 따라서 모델 병합의 성공 여부를 판단하려면 행동과 내부 양쪽을 모두 고려하는 종합적 평가가 필수적이다.

모델 병합 방법 평가를 위한 행동·내부 통합 파이프라인

초록

상세 분석

댓글 및 학술 토론

의견 남기기