유전체와 화학특성 기반 암세포 약물 민감도 예측
초록
본 연구는 암세포주와 약물의 유전체 정보 및 화학적 특성을 결합한 머신러닝 모델을 구축하여 IC50 값을 예측한다. 8‑fold 교차검증에서 R² 0.72, 독립 테스트에서 R² 0.64, 그리고 훈련에 사용되지 않은 조직의 세포주에서는 R² 0.61을 달성하였다. 이 모델은 실험적 스크리닝 비용을 절감하고, 약물 재배치 및 개인 맞춤 치료에 활용될 수 있다.
상세 분석
이 논문은 암세포주와 약물의 복합 특성을 동시에 활용함으로써 기존 연구들의 한계를 극복하고자 한다. 데이터는 주로 GDSC와 CCLE와 같은 대규모 공공 데이터베이스에서 수집했으며, 세포주 측면에서는 유전체 변이, 복제수 변이(CNV), 전사체 발현량 등을 1,000여 개의 바이너리·연속형 피처로 전처리하였다. 약물 측면에서는 SMILES 문자열을 기반으로 Morgan fingerprint와 물리‑화학적 descriptor(분자량, LogP, H‑결합 수 등)를 추출해 200여 차원의 특성 벡터를 구성하였다. 피처 스케일링과 차원 축소(PCA) 후, 랜덤 포레스트, XGBoost, 다층 퍼셉트론(MLP) 등 여러 알고리즘을 비교했으며, 최종 모델은 앙상블 방식으로 선택된 XGBoost와 MLP를 결합한 하이브리드 구조였다. 모델 학습은 8‑fold 교차검증을 통해 과적합을 방지했으며, 독립적인 블라인드 테스트 세트와 조직별 외삽 검증을 추가로 수행했다. 성능 평가지표는 결정계수(R²)와 평균 제곱근 오차(RMSE)였으며, 교차검증에서 R² 0.72, 블라인드 테스트에서 0.64, 조직 외삽에서는 0.61을 기록했다. 피처 중요도 분석 결과, 특정 돌연변이(예: TP53, KRAS)와 약물의 구조적 핵심 서브스트럭처가 민감도 예측에 크게 기여함을 확인했다. 또한, 모델은 결측된 IC50 값을 높은 정확도로 추정할 수 있어 실험 설계 단계에서 스크리닝 규모를 크게 축소할 수 있다. 한계점으로는 데이터 불균형, 세포주와 실제 환자 조직 간 차이, 그리고 약물 대사·독성 정보를 포함하지 않은 점을 들 수 있다. 향후에는 임상 샘플에 대한 전이 학습과 다중 오믹스 데이터를 통합해 예측 정확도를 더욱 높이는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기