Inter-Species Cell Detection: Datasets on pulmonary hemosiderophages in equine, human and feline specimens

📝 Abstract
Pulmonary hemorrhage (P-Hem) occurs among multiple species and can have various causes. Cytology of bronchoalveolarlavage fluid (BALF) using a 5-tier scoring system of alveolar macrophages based on their hemosiderin content is considered the most sensitive diagnostic method. We introduce a novel, fully annotated multi-species P-Hem dataset which consists of 74 cytology whole slide images (WSIs) with equine, feline and human samples. To create this high-quality and high-quantity dataset, we developed an annotation pipeline combining human expertise with deep learning and data visualisation techniques. We applied a deep learning-based object detection approach trained on 17 expertly annotated equine WSIs, to the remaining 39 equine, 12 human and 7 feline WSIs. The resulting annotations were semi-automatically screened for errors on multiple types of specialised annotation maps and finally reviewed by a trained pathologists. Our dataset contains a total of 297,383 hemosiderophages classified into five grades. It is one of the largest publicly availableWSIs datasets with respect to the number of annotations, the scanned area and the number of species covered.
💡 Analysis
Pulmonary hemorrhage (P-Hem) occurs among multiple species and can have various causes. Cytology of bronchoalveolarlavage fluid (BALF) using a 5-tier scoring system of alveolar macrophages based on their hemosiderin content is considered the most sensitive diagnostic method. We introduce a novel, fully annotated multi-species P-Hem dataset which consists of 74 cytology whole slide images (WSIs) with equine, feline and human samples. To create this high-quality and high-quantity dataset, we developed an annotation pipeline combining human expertise with deep learning and data visualisation techniques. We applied a deep learning-based object detection approach trained on 17 expertly annotated equine WSIs, to the remaining 39 equine, 12 human and 7 feline WSIs. The resulting annotations were semi-automatically screened for errors on multiple types of specialised annotation maps and finally reviewed by a trained pathologists. Our dataset contains a total of 297,383 hemosiderophages classified into five grades. It is one of the largest publicly availableWSIs datasets with respect to the number of annotations, the scanned area and the number of species covered.
📄 Content
폐출혈(P‑Hem)은 여러 종에서 발생하며 원인이 다양할 수 있다. 폐포 대식세포의 헤모시데린 함량을 기준으로 5단계 점수 체계를 적용한 기관지폐포세척액(BALF) 세포학 검사는 가장 민감한 진단 방법으로 여겨진다. 우리는 말, 고양이 및 인간 표본을 포함한 74개의 세포학 전슬라이드 이미지(WSI)로 구성된 새로운, 완전 주석이 달린 다종(P‑Hem) 데이터세트를 소개한다. 이 고품질·고용량 데이터세트를 만들기 위해 우리는 인간 전문가의 지식과 딥러닝 및 데이터 시각화 기술을 결합한 주석 파이프라인을 개발하였다. 먼저, 17개의 전문가가 주석을 달은 말의 WSI를 이용해 딥러닝 기반 객체 탐지 모델을 학습시켰으며, 이를 나머지 39개의 말, 12개의 인간 및 7개의 고양이 WSI에 적용하였다. 생성된 주석은 여러 종류의 특수 주석 지도에 대해 반자동으로 오류를 검토한 뒤, 훈련된 병리학자에 의해 최종 검토되었다. 우리 데이터세트는 총 297 383개의 헤모시데린 함유 대식세포(헤모시데린포스)를 5등급으로 분류하여 포함하고 있다. 주석 수, 스캔 영역 및 포함된 종의 수 측면에서 가장 큰 공개 WSI 데이터세트 중 하나이다.
주석 파이프라인은 원시 이미지에서 조직학적 특징을 추출하고, 이를 기반으로 딥러닝 모델이 대식세포를 탐지하도록 설계되었다. 모델은 Faster R‑CNN 구조를 활용했으며, 학습 과정에서 데이터 증강과 교차 검증을 적용하여 일반화 성능을 향상시켰다. 탐지된 객체는 헤모시데린 함량에 따라 0점(무함량)부터 4점(고함량)까지의 다섯 단계로 자동 분류되었다. 이후 반자동 검증 단계에서는 전문가가 정의한 오류 유형(예: 중복 라벨, 누락 라벨, 경계 오류 등)을 자동으로 표시하는 시각화 도구를 사용하였다. 최종 검토 과정에서는 병리학자가 각 슬라이드를 전체적으로 검토하여 남아 있는 미세 오류를 수정하고, 최종 주석 파일을 표준 COCO 형식으로 저장하였다.
이 데이터세트는 다중 종에 걸친 폐출혈 진단 연구에 활용될 수 있으며, 특히 인간과 동물 모델 간의 병리학적 비교 연구에 유용하다. 또한, 공개된 고해상도 WSI와 상세한 주석은 딥러닝 기반 폐질환 자동 진단 알고리즘 개발에 필요한 귀중한 학습 자료를 제공한다. 향후 연구에서는 이 데이터세트를 이용해 종 간 차이를 정량화하고, 헤모시데린 포스의 분포와 양상을 정밀하게 모델링함으로써 폐출혈의 병인 메커니즘을 밝히는 데 기여할 수 있을 것으로 기대된다.