OmniCellTOSG: 세포 수준 텍스트‑오믹 신호 그래프 데이터셋
초록
OmniCellTOSG는 8천만 개 이상의 단일세포·단일핵 RNA‑seq 데이터를 메타셀로 집계하고, 각 메타셀에 텍스트 기반 생물학 지식과 단백질‑단백질 상호작용 네트워크를 결합한 Text‑Omic Signaling Graph(TOSG)를 구축한 대규모 데이터베이스이다. 이를 기반으로 다중모달 그래프 언어 기반 파운데이션 모델(CellTOSG‑FM)을 사전학습시켜 세포 유형 분류, 질병 분류, 핵심 신호 경로 추론 등 다양한 다운스트림 과제에서 기존 오믹 모델을 능가하고, 해석 가능한 서브그래프 근거를 제공한다.
상세 분석
본 논문은 세 가지 핵심 혁신을 제시한다. 첫째, TOSG라는 새로운 데이터 구조를 정의하여 텍스트 기반 생물학적 사전지식(유전자·단백질 명칭, 설명, 서열)과 정량적 전사체/단백질 양을 동일 그래프에 통합한다. 이는 기존 오믹 파운데이션 모델이 유전자 시퀀스를 단순 벡터로 취급하고, 경로 정보를 명시적으로 모델링하지 못하던 한계를 극복한다. 둘째, 80 백만 개의 sc/snRNA‑seq 프로파일을 SEACells 기반 메타셀링으로 약 0.5 백만 개의 메타셀로 압축하고, BioMedGraphica 지식베이스와 매핑해 5 3 3 k개의 엔티티와 1 6 6 k개의 관계(내부 상호작용 152 k, PPI 16.5 M)를 포함하는 거대한 신호 그래프를 구축했다. 메타셀링은 희소성 감소와 계산 효율성을 제공하면서도 조직·질병·연령·성별 등 다양한 변이를 보존한다. 셋째, CellTOSG‑FM은 텍스트 인코더(생물학적 설명·서열 임베딩), 오믹 인코더(발현값), 그리고 그래프 인코더(메시지 패싱)를 결합한 멀티모달 아키텍처를 설계하고, 마스크드 엣지 복원, 노드 차수 회귀, 글로벌 메시지 전파 등 복합 자기지도 학습 목표를 동시에 최적화한다. 특히 엣지 마스킹이 구조 민감도 높은 링크 예측과 토폴로지 복원에 유리함을 실증한다. 실험에서는 세포 유형 라벨링, 질병(알츠하이머·암 등) 분류, 핵심 신호 경로 추론, 약물 반응 예측 등 7가지 벤치마크에서 기존 scGPT, scFoundation, GeneFormer 등과 비교해 평균 4–12% 이상의 성능 향상을 기록했다. 또한, 모델이 예측한 서브그래프를 시각화함으로써 “PI3K‑AKT 경로 활성화 → 알츠하이머 병리”와 같은 생물학적 가설을 직관적으로 제시한다. 데이터와 코드가 모두 공개돼 재현성과 확장성을 확보했으며, CellTOSG_Loader를 통해 사용자 정의 코호트 추출·균형 조정·배치 효과 보정까지 원스톱 파이프라인을 제공한다. 전반적으로 텍스트·오믹·네트워크를 통합한 그래프 언어 모델이 단일오믹 기반 모델을 넘어, 기계학습 기반 생물학 탐색에 필요한 메커니즘 해석성을 크게 강화한다는 점이 가장 큰 의의이다.
댓글 및 학술 토론
Loading comments...
의견 남기기