프랑스어 임상 종양학을 위한 금표준 코퍼스 FRACCO
FRACCO는 스페인어 CANTEMIST 코퍼스를 프랑스어로 번역·보강하여 만든 1301개의 합성 임상 사례 데이터셋이다. 형태학·위치·조직학 구분을 국제 암 분류(ICD‑O‑3.1) 코드와 연결하고, 다중 코드가 결합된 복합 표현까지 정규화하였다. 두 명의 도메인 전문가가 엔터티 스팬을 수작업으로 지정하고, 다섯 명의 전문가가 자동 매칭 후 수동 검증을
초록
FRACCO는 스페인어 CANTEMIST 코퍼스를 프랑스어로 번역·보강하여 만든 1301개의 합성 임상 사례 데이터셋이다. 형태학·위치·조직학 구분을 국제 암 분류(ICD‑O‑3.1) 코드와 연결하고, 다중 코드가 결합된 복합 표현까지 정규화하였다. 두 명의 도메인 전문가가 엔터티 스팬을 수작업으로 지정하고, 다섯 명의 전문가가 자동 매칭 후 수동 검증을 통해 총 71 127개의 정규화 결과를 확보했다. 399개의 형태학 코드, 272개의 위치 코드, 2 043개의 복합 표현을 포함해 프랑스어 종양학 NLP 연구의 기준 데이터로 활용될 수 있다.
상세 요약
FRACCO 구축 과정은 크게 세 단계로 나뉜다. 첫 번째는 스페인어 CANTEMIST 코퍼스의 선택과 프랑스어로의 고품질 기계 번역이다. 번역 후에는 임상적 일관성을 유지하기 위해 의료 전문가가 문맥을 검토하고, 필요시 용어를 재조정했다. 두 번째 단계는 엔터티 스팬 주석이다. 두 명의 종양학 전문 의사가 독립적으로 1 301개 문서의 형태학(morphology), 위치(topography), 조직학 차별화(histologic differentiation) 영역을 식별했으며, 불일치는 중재 회의를 통해 해결했다. 이중 주석 체계는 스팬 정확도와 재현성을 크게 향상시켰다. 세 번째 단계는 ICD‑O‑3.1 코드 정규화이다. 자동 매칭 알고리즘이 2549개의 형태학 표현·3143개의 위 위치 표현을 초기 코드에 매핑하고, 5명의 주석자가 이를 검증·수정해 최종 71 127개의 정규화 쌍을 확보했다. 특히 복합 표현(예: “adenocarcinoma of the colon, mucinous type”)을 하나의 임상 개념으로 통합하는 레이어를 추가함으로써 실제 임상 기록에서 흔히 나타나는 다중 코드 결합 문제를 해결했다. 데이터셋은 399개의 고유 형태학 코드와 272개의 고유 위 위치 코드를 포함하고, 2 043개의 복합 표현이 11 144개의 다양한 텍스트 형태로 나타난다. 이러한 풍부한 정규화 정보는 NER 모델 학습뿐 아니라 코드 매핑, 임상 의사결정 지원 시스템 구축에도 직접 활용 가능하다. 또한, 두 단계의 전문가 검증 과정을 통해 주석 품질이 높은 수준(Inter‑annotator agreement > 0.90)임을 입증했다. 한계점으로는 합성 데이터이므로 실제 전자의무기록(EMR)과의 차이가 있을 수 있고, 프랑스어 외 다른 로망스어권에 대한 일반화가 제한적이다. 향후 실제 환자 기록에 적용하고, 다국어 확장을 모색하는 것이 필요하다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...