miRNA와 유전자 발현 기반 암 분류를 위한 자기학습 및 공동학습 접근법

miRNA와 유전자 발현 기반 암 분류를 위한 자기학습 및 공동학습 접근법

초록

본 논문은 miRNA와 유전자 발현 데이터를 활용해 암 샘플을 분류하는 데, 라벨이 있는 데이터와 라벨이 없는 대규모 공개 데이터를 동시에 학습시키는 반지도 학습 기법인 자기학습(self‑learning)과 공동학습(co‑training)을 적용한 최초의 연구이다. 두 방법을 각각 또는 동시에 적용해 유방암, 간세포암, 폐암 데이터셋에서 기존 Random Forest, SVM, Low Density Separation(LDS) 모델에 비해 F1 점수가 최대 20%~25% 향상되는 결과를 보였다.

상세 분석

이 연구는 암 진단에 널리 사용되는 miRNA와 유전자 발현 프로파일을 반지도 학습 프레임워크에 통합함으로써 기존 지도 학습 기반 분류기의 한계를 극복하고자 한다. 먼저, 자기학습(self‑learning)에서는 miRNA와 유전자 각각에 대해 별도의 분류기를 구축하고, 라벨이 없는 대규모 공개 데이터셋에서 높은 신뢰도(예: 확률 0.9 이상)로 예측된 샘플을 기존 라벨 데이터에 추가한다. 이 과정을 여러 번 반복함으로써 훈련 집합을 점진적으로 확장한다. 중요한 점은 라벨이 없는 데이터의 품질을 보증하기 위해 엄격한 임계값을 설정하고, 오류 전파를 최소화하려는 전략을 채택했다는 것이다.

반면 공동학습(co‑training)은 두 개의 서로 다른 “뷰”(view)를 활용한다. 하나는 miRNA 발현, 다른 하나는 유전자 발현으로 정의되며, 각각 독립적인 분류기를 학습한다. 각 뷰에서 높은 신뢰도로 라벨이 예측된 샘플을 상대 뷰의 학습 데이터에 교차로 추가한다. 이 과정은 두 뷰가 서로 보완적인 정보를 제공한다는 가정에 기반한다. 실제 데이터 분석 결과, miRNA와 유전자 발현 사이에 충분히 독립적인 특성이 존재함을 확인했으며, 이는 공동학습이 라벨이 없는 데이터를 효과적으로 활용할 수 있는 근거가 된다.

실험에서는 세 가지 암 유형(유방암, 간세포암, 폐암)의 공개 데이터셋을 사용했으며, 각 데이터셋마다 라벨이 있는 훈련 샘플 수가 제한적이었다. 기본 모델로는 Random Forest와 Support Vector Machine을 적용했으며, 반지도 학습 성능 비교를 위해 Low Density Separation(LDS) 방법도 포함시켰다. 평가 지표는 주로 F1‑score를 사용했으며, 자기학습은 평균 12%~18%의 향상을, 공동학습은 특히 유방암 데이터에서 LDS 대비 약 25% 높은 F1‑score를 기록했다.

이 논문의 주요 기여는 다음과 같다. 첫째, miRNA와 유전자 발현 데이터를 동시에 활용하는 반지도 학습 파이프라인을 제안함으로써 기존 연구에서 간과되던 라벨이 없는 대규모 데이터의 가치를 입증했다. 둘째, 두 뷰가 충분히 상보적일 경우 공동학습이 단일 뷰 기반 학습보다 더 큰 성능 향상을 제공한다는 실증적 증거를 제공했다. 셋째, 라벨이 부족한 바이오마커 기반 진단 상황에서 라벨링 비용을 크게 절감하면서도 높은 분류 정확도를 달성할 수 있는 실용적인 방법론을 제시했다. 마지막으로, 본 연구는 반지도 학습이 생물정보학 분야, 특히 암 분류와 같은 고차원·소규모 라벨 데이터 문제에 적용될 수 있는 가능성을 넓혔다. 향후 연구에서는 다중 뷰를 더 확장하거나, 그래프 기반 반지도 학습과 결합해 더욱 정교한 모델을 개발하는 방향이 기대된다.