다학제 대형언어모델 파인튜닝 경험법칙 탐구
초록
본 논문은 수학·화학·생물·의학·지리 등 5개 과학 분야를 아우르는 대규모 멀티디시플린 데이터셋을 구축하고, Qwen2.5‑7B Instruct 모델에 대해 전체 파인튜닝, LoRA, LoRA‑MoE, LoRA‑Comp 네 가지 학습 전략을 비교한다. 실험을 통해 멀티디시플린 파인튜닝이 단일 분야보다 불안정하고 성능 저하가 빈번함을 확인하고, “Balance‑then‑Diversity”, “Merge‑then‑Align”, “Optimize‑then‑Scale”, “Share‑then‑Specialize” 네 가지 경험법칙을 도출한다. 이 법칙들은 데이터 균형·다양성 확보, 지시‑응답 정렬 복원, 설계 최적화 후 확장, 비대칭 파라미터 공유 기반 MoE 활용을 순차적으로 적용하는 실용적 레시피를 제시한다.
상세 분석
논문은 먼저 기존의 단일 분야 AI4Science 모델들이 각 도메인에 특화된 아키텍처와 제한된 라벨 데이터에 의존해 일반화에 한계를 보인다는 점을 지적한다. 이를 극복하고자 저자들은 5개 과학 분야(수학, 화학, 생물, 의학, 지리)를 포괄하는 3.3 백만 샘플 규모의 멀티디시플린 코퍼스를 구축했으며, 각 분야별 평균 길이와 고유 토큰 비율을 상세히 제시한다. 데이터 불균형이 심해(예: 수학 2 M, 지리 40 K) 학습 안정성에 큰 영향을 미치는 점을 사전에 인식한다.
학습 전략으로는 (1) 전체 파인튜닝(FT) – 모든 파라미터를 업데이트, (2) LoRA – 저차원 행렬 A, B만 학습, (3) LoRA‑MoE – 여러 LoRA 전문가와 게이팅 네트워크를 결합, (4) LoRA‑Comp – 사전 학습된 분야별 LoRA 어댑터를 라우터만 학습하는 방식 네 가지를 선택했다. 모든 실험은 Qwen2.5‑7B Instruct를 베이스로 하며, 동일한 학습률·에포크·하이퍼파라미터를 적용해 비교 가능성을 확보했다.
성능 평가에서는 각 분야별 인‑도메인 벤치마크(GSM8K, ChemBench 등)를 사용했으며, 정확도를 주요 지표로 삼았다. 결과는 단일 분야 파인튜닝이 데이터 양이 증가함에 따라 안정적으로 성능이 향상되는 반면, 멀티디시플린 파인튜닝은 특히 데이터가 적은 분야(의학, 생물, 지리)에서 큰 변동성을 보이고 평균 정확도가 감소함을 보여준다. FT는 파라미터가 많음에도 불구하고 분야 간 충돌 신호와 과적합으로 인해 PEFT 방식보다 열등한 결과를 낸다.
이러한 현상을 설명하기 위해 네 가지 경험법칙을 제시한다. 첫 번째 “Balance‑then‑Diversity”는 저자원 분야가 전체 학습을 방해하므로, 단순 복제 대신 다양성을 유지한 업샘플링(예: 토픽 기반 가중치 재샘플링)이 필요함을 강조한다. 두 번째 “Merge‑then‑Align”은 멀티디시플린 학습 과정에서 지시‑응답 능력이 손상될 수 있으므로, 일반적인 instruction 데이터(예: Alpaca‑style) 를 일정 비율 혼합해 모델의 지시 정렬을 회복해야 교차 분야 시너지 효과가 나타난다. 세 번째 “Optimize‑then‑Scale”는 파라미터 수를 무조건 확대하는 것이 효과적이지 않으며, 먼저 LoRA rank, 게이팅 구조, 학습 스케줄 등 설계 최적화를 수행한 뒤에 규모를 늘려야 효율적이라는 점을 실험적으로 입증한다. 마지막으로 “Share‑then‑Specialize”는 비대칭적인 파라미터 공유(예: 모든 전문가가 동일한 A 행렬을 공유하고 B만 전문가별로 다르게 학습) 를 통해 초기 단계에서 지식 공유를 촉진하고, 이후 전문가별 특화가 자연스럽게 이루어지도록 설계함으로써 전체 파라미터 대비 5 % 이하의 학습 파라미터만으로도 FT 수준의 성능을 달성한다는 중요한 인사이트를 제공한다.
전체적으로 논문은 멀티디시플린 LLM 파인튜닝이 단순히 데이터와 파라미터를 늘리는 것만으로는 해결되지 않으며, 데이터 균형·다양성, 지시 정렬 복원, 설계 최적화, 비대칭 공유라는 네 단계의 전략적 접근이 필요함을 체계적으로 증명한다.
댓글 및 학술 토론
Loading comments...
의견 남기기