워터쉐드 변환 기반 MFISH 염색체 분할 및 분류

초록

본 논문은 M‑FISH 이미지에서 워터쉐드 변환을 이용해 염색체를 영역별로 분할하고, 각 영역을 평균과 표준편차 특징으로 나이브 베이즈 분류기에 입력하여 염색체 종류를 판별한다. 작은 영역은 인접 큰 영역에 재분류하는 후처리를 추가해 픽셀 단위 방식보다 정확도를 높였으며, 40장의 데이터셋에서 84.21 %의 정확도를 달성하였다.

상세 분석

이 연구는 기존의 픽셀‑단위 M‑FISH 염색체 분류가 겪는 과다분할(over‑segmentation)과 잡음에 대한 민감성을 해결하고자 워터쉐드 변환을 핵심 전처리 단계로 도입하였다. 워터쉐드 알고리즘은 이미지의 강도 구배를 ‘지형’으로 해석해 물이 낮은 영역부터 차오르는 과정을 시뮬레이션함으로써 자연스럽게 경계가 뚜렷한 영역을 추출한다. 염색체 이미지에서는 형광 채널마다 강도 차이가 크고, 염색체 간 겹침이나 변형이 빈번하기 때문에 전통적인 임계값 기반 분할보다 워터쉐드가 보다 일관된 영역을 제공한다는 점이 핵심이다.

분할 후 각 영역에 대해 두 가지 통계적 특징, 즉 평균(intensity mean)과 표준편차(intensity standard deviation)를 계산한다. 이 두 특징은 채널별 강도 분포를 간결히 요약하면서도 서로 다른 염색체의 색상 프로파일을 구분하는 데 충분히 정보를 담고 있다. 선택된 특징이 제한적이지만, 나이브 베이즈 분류기의 조건부 독립 가정 하에 계산이 간단하고 학습 데이터가 적어도 과적합 위험이 낮다.

분류 단계에서는 사전 학습된 나이브 베이즈 모델에 각 영역의 평균·표준편차 벡터를 입력해 가장 높은 사후 확률을 갖는 염색체 클래스로 할당한다. 여기서 중요한 점은 영역 단위 분류이므로 픽셀 단위보다 잡음에 대한 내성이 크다는 것이다. 그러나 워터쉐드가 과도하게 작은 영역을 생성할 가능성이 존재한다. 이를 보완하기 위해 논문은 ‘소형 영역 재분류’ 후처리 절차를 도입하였다. 구체적으로, 면적이 사전에 정의된 임계값 이하인 영역을 주변의 인접 영역 중 가장 높은 사후 확률을 가진 클래스로 병합한다. 이 과정은 작은 조각이 독립적인 염색체로 오인되는 오류를 크게 감소시킨다.

실험은 공개된 M‑FISH 데이터베이스에서 무작위로 선정한 40장의 이미지를 대상으로 수행되었다. 전체 정확도는 84.21 %로 보고되었으며, 이는 기존 픽셀‑단위 접근법(약 78 % 수준)보다 유의미하게 향상된 수치이다. 특히, 작은 염색체 조각이나 경계가 흐릿한 영역에서 오분류율이 현저히 낮아진 것이 후처리 단계의 효과를 입증한다.

한계점으로는 특징 선택이 평균·표준편차 두 개에 국한돼 복잡한 색상 변동이나 비선형 패턴을 충분히 포착하지 못한다는 점이다. 또한, 워터쉐드 초기 마스크 생성에 사용되는 파라미터(예: 최소 거리, 평활화 커널)의 민감도가 논문에 상세히 기술되지 않아 재현성에 영향을 줄 수 있다. 향후 연구에서는 텍스처, 형태학적 특징을 추가하고, 딥러닝 기반 세그멘테이션과 결합해 보다 정교한 분류 체계를 구축할 여지가 있다.