데이터 다윈주의: 과학 데이터 전처리와 사전학습 혁신
초록
본 논문은 과학 논문·서적을 900 B 토큰 규모로 정제·보강한 “Darwin‑Science” 코퍼스를 구축하고, 데이터‑모델 공동 진화를 설명하는 10단계 계층( L0‑L9 )인 “Data Darwinism”을 제안한다. L4(생성적 정제)와 L5(인지적 완성) 단계에서 최신 대형 언어 모델을 활용해 노이즈 제거·구조 복구와 암묵적 추론·전문 용어 설명을 수행한다. 과학 데이터를 전혀 포함하지 않은 “daVinci‑origin‑3B/7B” 베이스 모델을 5.37 T 토큰으로 사전학습한 뒤, 600 B 토큰의 지속 사전학습(CPT)으로 Darwin‑Science을 적용하면, 일반 벤치마크에서 +2.12~+2.95점, 도메인 정렬 평가에서는 +5.60~+8.40점의 성능 향상을 얻는다. 계층적 처리 단계가 누적된 +1.36점의 전체 이득을 제공함을 실증한다.
상세 분석
Data Darwinism은 데이터 전처리·생성을 모델 능력에 따라 단계화한 최초의 체계적 프레임워크로, L0‑L3은 ‘선별’ 중심, L4‑L6은 ‘모델‑구동 변형’, L7‑L9은 ‘전적으로 합성’ 단계로 구분한다. 특히 L4와 L5는 기존 데이터 클리닝을 넘어, 대형 언어 모델을 이용해 텍스트의 구조적 결함을 복구하고, 과학 논문의 암묵적 논리 흐름을 명시적 단계로 전환한다는 점에서 혁신적이다. 논문은 과학 텍스트가 고밀도 정보와 복잡한 추론을 내포하지만, 그대로 학습에 투입하면 ‘학습 가능성 격차(learnability gap)’가 발생해 성능 향상이 미미함을 실험적으로 확인한다. L4 단계에서는 노이즈(메타데이터, OCR 오류, 파편화된 수식 등)를 제거하고, 문서 구조를 일관되게 재구성함으로써 토큰당 정보 효율을 높인다. L5 단계에서는 ‘인지적 완성’이라는 개념으로, 전문 용어를 인라인 설명하고, 암시된 증명 과정을 단계별로 전개하며, 교육적 비유를 삽입해 모델이 복잡한 개념을 더 쉽게 내재화하도록 돕는다.
실험 설계는 두 가지 핵심 요소를 갖는다. 첫째, 과학 데이터를 전혀 포함하지 않은 ‘깨끗한’ 베이스 모델(daVinci‑origin‑3B/7B)을 5.37 T 토큰 규모의 일반 텍스트 코퍼스로 사전학습해, 데이터 오염을 완전히 차단한다. 둘째, 동일한 베이스 모델에 대해 600 B 토큰의 지속 사전학습을 수행하면서, L0‑L5 처리된 Darwin‑Science과 기존 혼합 코퍼스를 비교한다. 결과는 L0‑L3만 적용했을 때는 거의 차이가 없으나, L4를 추가하면 +0.38점, L5까지 포함하면 총 +1.36점의 누적 이득을 보여준다. 특히 7B 모델에서 3B 대비 더 큰 향상이 관찰돼, 모델 규모가 클수록 고도화된 데이터 처리의 효과가 증폭된다는 중요한 인사이트를 제공한다.
또한, 데이터 구성 비율, 교사 모델(Qwen3‑235B vs GPT‑OSS‑120B) 선택, 컨텍스트 길이(32K vs 4K) 등 다양한 변수에 대한 분석을 통해, 과학 데이터 비중 50%가 최적이며, 고품질 교사 모델과 긴 컨텍스트가 성능을 추가로 끌어올린다는 실용적 가이드라인을 제시한다. 평가 벤치마크는 일반 NLP 벤치마크 20여 개와, 저자들이 별도로 구축한 과학 도메인 전용 ‘Darwin‑Science‑Eval’(150 K 전문가 수준 질문)으로 구성돼, 도메인 정렬 평가에서 일반 벤치마크 대비 3배 이상의 향상을 확인한다.
한계점으로는 L6‑L9 단계가 아직 구현되지 않아, 완전한 데이터‑모델 공동 진화의 최종 모습을 검증하지 못했다는 점, 그리고 L5 처리에 사용된 프론티어 LLM의 비용과 추론 시간 문제가 있다. 또한, 인간 전문가가 L5 결과를 검증하거나 교정하는 과정이 부족해, 자동화된 ‘인지적 완성’의 품질 보증이 향후 과제이다. 그럼에도 불구하고, 데이터 품질을 정량적·계층적으로 정의하고, 모델 능력에 따라 점진적으로 고도화하는 접근은 향후 대규모 도메인 특화 모델 개발에 중요한 설계 원칙이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기