다중소스 합성·MinHash·매칭으로 만든 고품질 다국어 사전학습 데이터
초록
웹에서 수집한 다국어 텍스트는 서로 중복되는 경우가 많다. 저자들은 이러한 중복을 “품질 신호”로 활용해, 여러 독립적인 크롤링 파이프라인이 동시에 남긴 문서를 선택하는 MixMinMatch 방법을 제안한다. MinHash 기반 중복 제거 과정에서 생성된 클러스터를 이용해 두 개 이상 출처를 가진 문서만을 추출함으로써, 별도 모델 추론 없이 고품질 데이터를 얻는다. 아랍어, 터키어, 힌디어에 적용한 결과, 기존 단일 소스 대비 토큰 수는 최대 4배↑, 성능은 4–5 % 상대 향상을 기록했다.
상세 분석
본 논문은 다국어 대규모 언어 모델(LLM) 사전학습에 필요한 웹 텍스트가 여러 연구팀에 의해 중복 수집되는 현상을 “낭비된 자원”이자 “품질 신호”로 재해석한다. 핵심 가정은 서로 다른 크롤링 일정·필터링 기준·품질 휴리스틱을 가진 파이프라인이 동일한 문서를 남겼을 때, 그 문서는 높은 품질을 가질 확률이 크다는 것이다. 이를 정량화하기 위해 저자들은 세 단계의 MixMinMatch 파이프라인을 설계하였다.
1️⃣ Mix 단계에서는 공개된 다국어 웹 코퍼스(C4, CulturaX, HPL T 2.0, FinePDFs, FineWeb‑2 등)와 언어별 특화 코퍼스(ArabicWeb24, Sangraha‑U 등)를 모두 수집하고, 각 문서에 원본 출처 라벨을 부착한다. 이렇게 하면 이후 단계에서 출처 간 겹침을 정확히 추적할 수 있다.
2️⃣ MinHash 단계는 기존 대규모 중복 제거와 동일한 로컬리티‑센시티브 해싱(LSH) 방식을 사용한다. 5‑gram 문자 셰링을 기반으로 112‑길이 시그니처를 만든 뒤 14개의 밴드(각 8개 해시)로 나누어 후보 쌍을 생성하고, Jaccard 추정값 τ = 0.8 이상을 만족하는 경우를 ‘근접 중복’으로 판단한다. Union‑Find 알고리즘으로 클러스터링하고, 각 클러스터에서 가장 앞선 인덱스 문서를 대표로 선택해 재현성을 확보한다.
3️⃣ Match 단계는 바로 이 클러스터에 포함된 출처 수를 검사한다. 두 개 이상(또는 사용자가 지정한 3개 이상) 서로 다른 소스가 동일 클러스터에 속하면 해당 클러스터를 ‘매치’된 고품질 문서 집합에 포함한다. 이 과정은 이미 생성된 클러스터 메타데이터를 단순 조회·카운트하는 O(1) 연산이므로 추가 연산 비용이 거의 없다.
이론적 배경으로는 군중 지능(ensemble)과 인터‑어노테이터 합의가 있다. 각각의 필터링 파이프라인을 ‘주석자’라 보고, 다수의 주석자가 동일 문서를 유지하면 그 문서의 잠재 품질 변수 Q(x) 가 높아진다고 모델링한다. 따라서 ‘교차‑소스 합의’는 노이즈를 자연스럽게 억제하는 비지도 품질 필터 역할을 한다.
실험에서는 아랍어, 터키어, 힌디어 세 언어에 대해 MixMinMatch 을 적용해 AraMix, TurMix, HinMix을 구축하였다. 표 2·3에 따르면, 원본 토큰 ≈ 300 B에서 품질 필터링·MinHash·Match 단계를 거쳐 최종 매치된 토큰은 각각 54 B, 56 B, 27 B 정도로 축소되지만, 전체 토큰 대비 매치 비율은 40‑45 %에 불과한 기존 단일 코퍼스 대비 2‑4배 이상의 고유 토큰을 확보한다.
성능 평가에서는 동일 규모의 LLM(예: Llama‑3.2‑3B) 사전학습 후 베이스라인(ArabicWeb24, FineWeb‑2 등) 대비 아랍어 4.5 %·터키어 5.5 %의 상대적 개선을 보고한다. 이는 중복 제거만으로는 얻을 수 없는 ‘다중 소스 합의’가 실제 모델 일반화에 긍정적 영향을 미친다는 실증적 증거다.
또한, 이 방법은 언어‑특화 필터링(길이, 문자 반복, 스크립트 일관성 등)을 최소 수준으로 유지하면서도, 교차‑소스 합의를 통해 언어‑불변적인 품질 신호를 제공한다는 장점이 있다. 따라서 저자들은 향후 더 많은 언어와 소스에 확장하고, ‘동의 수준’(예: ≥ 3 source) 조절을 통해 품질‑다양성 트레이드오프를 세밀히 제어할 수 있음을 제시한다.
요약하면, MixMinMatch 은 기존 중복 제거 파이프라인에 ‘소스 라벨 기반 합의 필터’를 얹음으로써, 추가 연산 비용 없이 고품질·고다양성 데이터셋을 자동 생성하는 실용적·이론적 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기