다국어 FAQ 데이터셋 WebFAQ 2.0, 하드 네거티브와 밀집 검색을 위한 새로운 자원
초록
WebFAQ 2.0은 108개 언어에 걸쳐 1억 9,800만 개의 FAQ 기반 질문‑답변 쌍을 제공하고, 14.3 M 이상의 이중언어 정렬 쌍을 포함한다. 새 크롤링 파이프라인으로 페이지 제목·설명을 메타데이터에 추가했으며, 20개 언어에 대해 1.25 M 쿼리와 200개의 교차인코더 점수를 포함한 하드 네거티브를 공개한다. 밀집 검색 모델은 MultipleNegativesRanking 손실을 이용한 대비 학습과 MarginMSE 손실을 이용한 지식 증류 두 가지 전략으로 미세조정할 수 있다. 데이터는 GitHub·HuggingFace에 공개되고, Open Web Index를 통해 지속적으로 업데이트된다.
상세 분석
WebFAQ 2.0은 기존 WebFAQ 1.0의 한계를 극복하기 위해 데이터 수집·정제·확장 전 과정을 재설계하였다. 첫 번째 핵심은 Common Crawl 2025 스냅샷에서 “FAQPage” 스키마를 탐지하고, OWLer 분산 크롤러로 실시간 페이지를 다운로드함으로써 구조화된 FAQ 마크업을 직접 추출한 점이다. 이 접근법은 (i) 연간 한 번만 제공되는 Web Data Commons 덤프에 비해 데이터 규모를 2배 이상 확대하고, (ii) hreflang 속성을 활용해 다국어 페이지 간 연결 고리를 자동 수집해 이중언어 정렬을 크게 늘렸다. 또한 페이지 제목·설명 메타데이터를 보존함으로써 질문‑답변 쌍의 의미적 모호성을 완화하고, downstream 모델이 컨텍스트를 활용하도록 설계했다.
언어 커버리지는 108개 언어로 확대되었으며, 영어 비중이 27.9%로 크게 감소해 전체의 30% 수준으로 균형을 맞췄다. 이는 특히 힌디어, 우크라이나어, 폴란드어 등 저자원 언어의 샘플이 수백 배 증가한 결과다. 토픽 라벨링은 GPT‑5‑mini와 XLM‑R 기반 분류기를 활용해 7가지 대분류와 10가지 세부 토픽으로 라벨링했으며, 여행·숙박 분야가 전체의 60%를 차지해 데이터 편향을 확인할 수 있다. 질문 유형은 Bolotova et al.의 7가지 분류를 다국어에 확장했으며, LLM 앙상블(LLaMA 3.1, Gemma 2, Qwen 2.5)으로 자동 라벨링 후 XLM‑R으로 재학습해 88% 수준의 F1을 달성했다. 다만 라벨링이 인간 검증 없이 진행된 점은 향후 품질 개선 과제로 남는다.
하드 네거티브 구축은 두 단계 파이프라인으로 진행된다. 먼저 BM25로 1,000개 후보를 추출하고, BGE‑m3 교차인코더로 재랭킹해 상위 200개를 선택한다. 각 네거티브는 교차인코더 점수와 함께 제공돼, MultipleNegativesRanking 손실을 적용한 대비 학습에서 “거짓 양성”을 최소화하도록 설계되었다. 실험 결과, 무작위 네거티브 대비 일부 언어에서 성능 향상이 관찰됐지만, 특히 영어에서는 랜덤 네거티브가 여전히 강력한 베이스라인을 형성한다는 점을 지적한다. 반면 MarginMSE 기반 지식 증류는 비영어 언어에서 일관된 개선을 보였지만, 영어 성능이 약간 감소하는 트레이드오프가 존재한다. 이는 교차인코더가 언어별 편향을 내포하고 있음을 시사한다.
비트렉스(이중언어) 정렬은 LaBSE 임베딩을 이용해 질문‑답변 쌍을 0.9 이상의 유사도 임계값으로 매칭한다. 결과적으로 3,970개의 언어 조합에서 14.3 M 이상의 정렬 쌍을 확보했으며, 특히 마라티‑텔루구, 독일‑스페인어, 러시아‑우크라이나어 등 비영어‑비영어 조합이 크게 늘었다. GEMBA(LMM 기반) 평가를 통해 샘플 정밀도를 검증했으며, 이 비트렉스 데이터는 MTEB 벤치마크에 새로운 태스크로 추가돼 다국어 문장 임베딩 연구에 기여한다.
마지막으로, WebFAQ 2.0은 정적 데이터셋이 아니라 Open Web Index를 통해 매일 새로운 FAQ 덤프를 수집·통합하는 지속 가능한 파이프라인을 구축했다. 이는 향후 데이터 신선도와 언어 다양성을 유지하면서, 커뮤니티가 직접 새로운 도메인·언어를 추가할 수 있는 열린 생태계를 만든다. 전체 데이터와 학습 스크립트는 GitHub와 HuggingFace에 공개돼 재현 가능성을 높였으며, 다국어 밀집 검색, 교차언어 QA, 그리고 하드 네거티브 기반 학습 연구에 즉시 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기