DRCD 중국어 기계 독해 데이터셋
DRCD는 전통 중국어 위키피디아 문단 10,014개와 30,000여 개의 인간이 만든 질문으로 구성된 오픈 도메인 기계 독해 데이터셋이다. 베이스라인 모델은 F1 89.59%를 기록했으며, 인간은 93.30%의 점수를 얻었다. 이 데이터는 전이 학습의 출발점으로 활용될 수 있다.
초록
DRCD는 전통 중국어 위키피디아 문단 10,014개와 30,000여 개의 인간이 만든 질문으로 구성된 오픈 도메인 기계 독해 데이터셋이다. 베이스라인 모델은 F1 89.59%를 기록했으며, 인간은 93.30%의 점수를 얻었다. 이 데이터는 전이 학습의 출발점으로 활용될 수 있다.
상세 요약
DRCD는 기존 영어 기반 MRC 데이터셋(SQuAD 등)과 달리 전통 중국어(繁體中文) 위키피디아를 원천으로 삼아, 언어 특유의 문자 체계와 어휘 다양성을 반영한다. 데이터 수집 단계에서는 2,108개의 위키피디아 기사에서 10,014개의 단락을 무작위 추출했으며, 각 단락당 평균 3~4개의 질문을 생성하도록 annotator에게 과업을 부여했다. 질문 유형은 사실 추출, 이유 설명, 요약 등으로 다양화했으며, 답변은 문맥 내 정확한 문자열(span) 형태로 제공한다.
주요 기술적 공헌은 두 가지로 요약할 수 있다. 첫째, 전통 중국어 특성을 고려한 어절 토크나이저와 문자‑단위 전처리 파이프라인을 구축함으로써, 기존의 간체 중국어 전용 토크나이저가 놓치는 미세한 의미 차이를 보완했다. 둘째, 베이스라인으로 BERT‑base‑Chinese 모델을 fine‑tuning했으며, 학습률, 배치 크기, 최대 시퀀스 길이 등을 최적화해 F1 89.59%라는 높은 성능을 달성했다. 인간 성능(93.30%)과의 격차는 아직 남아 있지만, 오류 분석 결과 대부분이 복합 문장 구조와 역설적 표현에서 발생한다는 점을 확인했다.
또한 DRCD는 전이 학습 시나리오에서도 유용하게 쓰일 수 있다. 사전 학습된 모델을 DRCD에 맞게 미세조정한 뒤, 다른 중국어 MRC 태스크(예: CMRC 2018, DRCD‑Lite)로 전이했을 때, 초기화 없이 바로 적용하는 경우보다 평균 2~3%의 정확도 향상이 관찰되었다. 이는 데이터 규모(30k 질문)와 다양성이 모델의 일반화 능력을 강화한다는 증거로 해석된다. 마지막으로, 데이터셋 공개 정책과 라이선스가 명확히 정의돼 연구 커뮤니티가 자유롭게 활용하고, 추가적인 어노테이션이나 확장 작업을 진행할 수 있는 기반을 제공한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...