COVID19 텍스트 마이닝을 위한 대규모 사전과 코퍼스 툴킷
초록
본 논문은 SARS‑CoV‑2와 COVID‑19 관련 용어 변이를 포괄하는 영문 사전 4종과, 이 사전을 활용해 자동 주석을 달아 만든 대규모 실버 코퍼스(Lund‑Annotated‑CORD‑19) 및 전문가가 직접 라벨링한 골드 코퍼스(Lund‑COVID‑19)를 공개한다. 사전은 바이러스, 질병, 변이, 돌연변이 용어를 포함하며, 사전 기반 NER 도구 EasyNER와 결합해 764 398개의 CORD‑19 초록을 주석하였다. 골드 코퍼스는 10개의 PubMed 초록을 10개 개념(바이러스, 질병, 증상 등)으로 세밀히 라벨링한 것이다. 이 툴킷은 용어 변이 분석, 지식 그래프 구축, 대형 언어 모델 학습 등에 활용될 수 있다.
상세 분석
이 연구는 초기 COVID‑19 팬데믹 시기에 급증한 문헌량을 효율적으로 처리하기 위해 사전 기반 명명된 개체 인식(Named Entity Recognition, NER)과 자동 주석 생성 파이프라인을 설계하였다. 사전 구축 단계에서는 NCBI Taxonomy, Wikidata, MeSH, Disease Ontology 등 다수의 공공 데이터베이스와 기존 연구에서 제공된 용어 리스트를 수집하고, ‘2019’, ‘novel’, ‘new’와 같은 접두·접미어 추가, ‘corona virus’와 ‘coronavirus’와 같은 띄어쓰기 변형, 하이픈 제거, 복수형 → 단수형 정규화 등을 자동화 스크립트로 수행해 용어 변이성을 최대한 포괄하였다. 특히 변이 사전은 WHO, GISAID, Nextstrain, Pango 등에서 제공하는 라인(Lineage)·클레이드(Clade) 명칭을 수집하고, ‘variant’, ‘lineage’, ‘clade’ 접미어를 추가해 1 133 377개의 변이 용어를 확보하였다.
주석 생성에는 EasyNER 2.0.0을 활용했으며, 텍스트 전처리 단계에서 하이픈을 공백으로 변환해 사전 매칭률을 높였다. CORD‑19 메타데이터(2022‑06‑02 기준)에서 764 398개의 초록을 추출하고, spaCy의 en_core_web_sm 모델로 문장을 분할한 뒤, 사전 4종을 적용해 엔티티를 식별하였다. 결과는 JSON 형식의 실버 코퍼스로 저장되었으며, 라이선스 제약으로 전체가 아닌 197 905개의 초록만 공개하고, 전체 재현을 위한 스크립트를 제공한다.
골드 코퍼스는 2020년 3월까지 발표된 PubMed 초록 중 10개를 무작위 선택해 BioQRator를 이용해 10개의 개념(바이러스‑SARS‑CoV‑2, 바이러스‑기타, 바이러스‑패밀리, 세포, 단백질/유전자, 질병‑COVID‑19, 질병‑기타, 증상, 종‑인간, 종‑기타)으로 정밀 라벨링하였다. 약어와 중첩 표현도 별도 라벨링해 라벨 일관성을 확보하였다.
이 툴킷의 주요 의의는 (1) 용어 변이성을 체계적으로 수집·정규화한 대규모 사전 제공, (2) 사전 기반 NER과 EasyNER 파이프라인을 통해 실버 코퍼스를 자동 생성함으로써 학습·평가 데이터 확보 비용을 크게 절감, (3) 골드 코퍼스를 통해 사전 기반 주석의 정확성을 검증하고, 향후 딥러닝 기반 모델의 벤치마크 데이터로 활용 가능하다는 점이다. 또한, 변이·돌연변이 사전은 지속적인 업데이트가 가능하도록 스크립트를 공개했으며, 이는 새로운 변이 등장 시 신속히 반영할 수 있는 확장성을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기