크라우드소싱 유전자 집합으로 본 단백질 상호작용 네트워크 재구성

Enrichr는 2013년 출시 이후 25,000명 이상의 사용자가 900,000건 이상의 유전자 집합을 제출한 온라인 풍부도 분석 플랫폼이다. 본 연구는 이러한 방대한 질의 데이터를 메타데이터로 활용해, 전 세계 연구자들의 암묵적 지식을 추출하고자 하였다. 먼저, 비공식 유전자 심볼을 제외하고, 특정 사용자가 과도하게 기여한 리스트를 제거함으로써 19,196개의 고품질 유전자 집합(총 27,770개 유전자, 3,308개 고유 IP)만을 남겼다. 이 집합들을 아이템셋으로 간주하고, 논리적 아이템셋(logical item‑set) 방법을 적용해 유전자 간 동시 출현 빈도를 계산하였다. 잡음 필터링을 통해 신뢰도 높은 연관만을 보존하고, 정규화된 점별 상호정보(NPMI)를 유사도 척도로 사용해 네트워크를 구축하였다. 결과 네트워크는 0.43의 높은 클러스터링 계수를 보였으며, 이는 무작위 스케일프리 모델(Barabási‑Albert)에서 기대되는 0.0026에 비해 수백 배 높은 조직성을 의미한다. 네트워크의 생물학적 의미를 검증하기 위해, PSICQUIC 데이터베이스에 포함된 알려진 단백질‑단백질 상호작용(PPI)와의 겹침을 분석하였다. NPMI 임계값 0.05(또는 0.3)에서 Enrichr 네트워크와 PPI 네트워크 사이에 2,763개의 공통 엣지가 존재했으며, 이는 기대값 169에 비해 200 표준편차 이상 차이 나는 극히 유의한 결과다. 개별 유전자의 빈도에 기반한 하이퍼지오메트리 검정과 다중 검정 보정(FDR 2%)을 수행해도 유의성이 유지되었다. 이는 사용자가 이미 알려진 PPI를 많이 포함한 리스트를 제출했을 가능성을 배제한다. 다음으로, 28개의 기존 유전자 집합 라이브러리(예: Gene Ontology, KEGG, Reactome, ChEA, Human/Mouse Gene Atlas, CCLE 등)와의 교차 검증을 수행하였다. 각 라이브러리의 gene set을 Enrichr 네트워크에 매핑하고, 평균 NPMI를 계산해 무작위 집합과 비교함으로써 p값을 도출하였다. FDR 1% 기준으로, 일부 라이브러리에서는 30% 이상 gene set이 유의하게 재현되었으며, 특히 전사인자 결합 부위(ChEA)와 대규모 전사체 프로파일링 데이터(예: Human Gene Atlas, CCLE)에서 높은 복원율을 보였다. 이는 크라우드소싱된 질의가 다양한 생물학적 컨텍스트를 포괄하고 있음을 시사한다. 시각화 측면에서는 기존의 밀도 높은 네트워크를 해석하기 어려운 문제를 해결하기 위해, 전역 구조를 보존하면서도 지역 클러스터를 유지하는 새로운 엣지‑프루닝 알고리즘을 설계하였다. 이를 통해 전체 네트워크와 주요 로컬 서브그래프(예: 성인 발병 당뇨병 관련 유전자 군)를 직관적으로 탐색할 수 있었다. 특히, 당뇨병 경로에 포함되지 않은 UTS2R와 FLJ45717 같은 유전자가 네트워크 내에서 중심 노드로 나타나, 잠재적 신규 연관성을 제시하였다. 결론적으로, 이 연구는 개인 연구자가 제출한 ‘프라이빗’ 질의를 집합적으로 분석함으로써, 기존 데이터베이스에 없는 잠재적 유전자‑유전자 연관성을 발굴하고, 알려진 PPI와 기능적 모듈을 높은 정확도로 재현한다는 점에서, 대규모 생물학적 지식의 ‘집단 지성’ 활용 가능성을 입증한다. 또한, 제안된 엣지‑프루닝 시각화 기법은 대규모 네트워크를 직관적으로 탐색하고, 새로운 가설을 도출하는 데 유용한 도구가 될 것이다.

크라우드소싱 유전자 집합으로 본 단백질 상호작용 네트워크 재구성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기