세포학을 위한 맞춤형 비전‑언어 대형 모델 Singpath‑VL
초록
본 논문은 자궁경부 세포학을 위한 전용 비전‑언어 대형 모델 Singpath‑VL을 제안한다. 100만 장 규모의 이미지‑설명 데이터셋을 세 단계 파이프라인(다중 MLLM 약한 주석, 합의 융합, 전문가 지식 주입)으로 자동 생성하고, 이를 기반으로 Qwen3‑VL‑4B를 다단계 미세조정한다. 결과적으로 미세형태학 인식 및 Bethesda 체계 기반 세포 수준 진단에서 기존 일반‑목적 MLLM을 크게 능가함을 보이며, 데이터 일부와 벤치마크를 공개한다.
상세 분석
Singpath‑VL은 자궁경부 세포학이라는 고도로 세밀한 병리 영역을 목표로, 기존 대규모 멀티모달 모델이 직면한 데이터 부족 문제를 혁신적으로 해결한다. 저자는 먼저 내부 이미지 타일 저장소에서 1백만 개의 이미지‑텍스트 쌍을 생성하기 위해 세 단계 파이프라인을 설계했다. 첫 단계에서는 Qwen3‑VL‑32B, InternVL‑3.5‑38B, Baichuan‑Omni‑1.5 등 최신 오픈소스 MLLM을 병렬로 호출해 각각 독립적인 캡션을 만든다. 두 번째 단계에서는 대형 언어 모델을 이용해 세 캡션의 공통된 형태학적 특징을 추출하고, 모델이 놓친 차원을 필터링한다. 마지막으로, 자궁경부 세포학에 특화된 소형 전문가 모델이 원본 이미지와 융합된 텍스트를 재검토해 누락된 핵‑세포 비율, 염색 패턴 등 미세한 정보를 보강한다. 이렇게 구축된 Singpath‑CytoText 데이터셋은 고품질 형태학적 설명을 포함하며, 이후 Qwen3‑VL‑4B를 기반으로 세 단계 미세조정을 수행한다. 첫 단계는 비전‑언어 정렬을 통해 도메인 시각 특징과 용어를 연결하고, 두 번째 단계는 구조화된 Bethesda 보고 템플릿을 활용한 지시‑응답 데이터로 모델의 지시 수행 능력을 강화한다. 세 번째 단계에서는 원본 모델을 이용해 생성한 일반‑도메인 및 도메인‑특화 QA 쌍을 섞어 재학습함으로써, 과도한 파인튜닝으로 인한 범용 지식 손실(카타스트로픽 포깅)을 완화한다. 실험에서는 두 개의 자체 구축 벤치마크(MorphoPercept‑Bench와 CytoCell‑Bench)를 사용해 모델을 평가했으며, 형태학적 관찰 9가지 항목에서 평균 89% 이상의 정확도를 기록해 인간 전문가 간 평균 일치도(≈78%)를 뛰어넘었다. 또한 Bethesda 진단 카테고리별 정확도에서도 NILM 100%를 포함해 모든 클래스에서 기존 EfficientNet B0와 일반 MLLM을 능가했다. 정성적 사례에서도 Singpath‑VL은 세포 형태를 정확히 기술하고 올바른 진단을 제시했으며, 다른 모델은 과도한 양성 편향을 보였다. 한계로는 현재 자궁경부 세포학에 국한된 점, 슬라이드‑레벨 스크리닝 등 고차원 임상 작업에 대한 검증 부족, 다른 세포학 분야로의 확장 어려움이 제시된다. 향후 연구는 도메인 간 전이 학습, 인과 추론 및 임상 통합 기능 강화에 초점을 맞출 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기