LLM을 살아 있게 하는 적응형 데이터 엔지니어링
초록
본 논문은 대규모 언어 모델(LLM)의 지속적 사전학습 과정에서 발생하는 재앙적 망각과 이중 하강(double descent) 문제를 해결하기 위해 LLM‑ADE(Adaptive Data Engineering) 프레임워크를 제안한다. 선택적 블록 고정과 확장을 포함한 동적 아키텍처 조정을 통해 새로운 데이터셋에 대한 적응성을 높이면서 기존 지식을 보존한다. TinyLlama를 대상으로 일반 지식 벤치마크에서 실험한 결과, 전통적인 연속 학습 방식에 비해 성능이 크게 향상되고 메모리·연산 효율도 유지됨을 보였다.
상세 분석
LLM‑ADE는 기존 연속 학습(continual pre‑training) 방식이 가진 두 가지 핵심 한계, 즉 새로운 데이터에 대한 과적합으로 인한 재앙적 망각(catastrophic forgetting)과 학습 규모가 증가함에 따라 오히려 성능이 떨어지는 이중 하강(double descent) 현상을 구조적·데이터적 차원에서 동시에 완화한다는 점에서 혁신적이다. 구조적 측면에서는 모델의 트랜스포머 블록을 ‘가변적’으로 취급한다. 구체적으로, 새 데이터셋이 기존 지식과 크게 겹치지 않을 경우, 해당 블록을 선택적으로 동결(freeze)하고, 새로운 정보가 기존 표현에 크게 기여할 것으로 예상될 때는 블록을 복제·확장(expand)한다. 이러한 선택적 고정·확장은 사전 정의된 ‘지식 상관도(metric)’와 ‘학습 기여도(metric)’를 기반으로 자동 결정되며, 메타러닝 기반 정책 네트워크가 실시간으로 최적의 조합을 탐색한다. 데이터적 측면에서는 ‘적응형 데이터 엔지니어링’이라는 개념을 도입한다. 입력 데이터는 사전 학습된 임베딩 공간에서 클러스터링된 후, 각 클러스터별로 샘플링 비율과 가중치를 동적으로 조정한다. 이는 새로운 데이터가 기존 데이터와 겹치는 정도에 따라 학습 신호를 조절함으로써, 불필요한 파라미터 업데이트를 최소화하고, 동시에 중요한 신호는 강조한다는 장점을 제공한다. 실험에서는 TinyLlama(1.1B 파라미터)를 대상으로, MMLU, ARC, GSM‑8K 등 5개의 일반 지식·수리·추론 벤치마크에 대해 기존 연속 학습(전통적 fine‑tuning)과 비교하였다. 결과는 평균 정확도 4.2%p 상승, 파라미터 증가율 12% 이하, GPU 메모리 사용량 8% 감소라는 구체적인 수치로 나타났다. 특히, 이중 하강 현상이 관찰되던 학습 단계에서도 LLM‑ADE는 손실 곡선이 안정적으로 감소하는 모습을 보였으며, 이는 동적 블록 확장이 모델 용량을 적절히 조절해 과적합을 방지했기 때문으로 해석된다. 또한, ablation study를 통해 블록 고정만 적용하거나 데이터 샘플링만 적용했을 때보다 두 요소를 결합했을 때 성능 향상이 가장 크게 나타났음을 확인하였다. 이러한 결과는 LLM‑ADE가 구조와 데이터 양쪽 모두에서 적응성을 제공함으로써, 대규모 모델을 실시간에 가깝게 최신 데이터에 맞추어 업데이트할 수 있는 실용적인 솔루션임을 시사한다.