공간 전사체와 단백질체를 위한 계층 그래프 파운데이션 모델 HEIST

공간 전사체와 단백질체를 위한 계층 그래프 파운데이션 모델 HEIST
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HEIST는 조직을 계층적 그래프로 표현하여 세포 간 공간 관계와 각 세포 내부의 유전자 공동발현 네트워크를 동시에 학습한다. 계층 내·외 메시지 패싱과 공간‑인식 대비 학습, 마스크 자동인코딩을 결합해 22.3 백만 개의 세포(124 조직, 15 장기)에서 사전학습하였다. 결과적으로 기존 모델이 놓친 공간적 세포 하위군을 발견하고, 단백질 데이터로의 전이, 임상 예후 예측, 세포 유형 주석, 유전자 보간 등 다양한 다운스트림 과제에서 최첨단 성능을 달성한다.

상세 분석

HEIST는 두 단계의 그래프를 계층적으로 결합한다. 최상위 레벨은 세포를 노드로 하는 공간 그래프이며, 각 세포는 하위 레벨의 유전자 공동발현 네트워크(공동발현 그래프)와 연결된다. 이 구조는 “세포‑유전자”라는 자연스러운 위계 관계를 그대로 반영한다는 점에서 기존의 전사체 전용 파운데이션 모델(SC‑GPT, SC‑Foundation 등)과 차별화된다.

모델 아키텍처는 먼저 각 레벨에서 자체적인 그래프 트랜스포머를 이용해 intra‑level 메시지 패싱을 수행한다. 세포 그래프에서는 공간 인접성을, 유전자 그래프에서는 상호 정보량 기반으로 구축된 공동발현 엣지를 활용한다. 이후 cross‑level 메시지 패싱 단계에서, 세포 임베딩은 해당 세포의 유전자 임베딩을 풀링한 값으로 업데이트되고, 유전자 임베딩은 부모 세포 임베딩을 반복 복제해 어텐션 연산에 입력한다. 이 방향성 어텐션은 “gene → cell”와 “cell → gene” 흐름을 명시적으로 구분함으로써, 유전자는 자신이 속한 세포의 미세환경 정보를, 세포는 내부 유전자 프로그램을 반영하도록 만든다.

학습 목표는 두 가지가 결합된 복합 손실이다. ① 공간‑인식 대비 학습(contrastive learning)은 동일 세포 유형이면서 공간적으로 가까운 쌍을 긍정 샘플로, 다른 유형이면서 인접한 쌍을 부정 샘플로 삼아 임베딩 공간을 생물학적 유사성에 맞게 정렬한다. 여기에는 cell‑cell, gene‑gene, 그리고 cell‑gene 간 대비도 포함돼, 유전자와 세포가 서로 일관된 표현을 갖도록 강제한다. ② 마스크 자동인코딩은 무작위로 마스킹된 세포 좌표와 유전자 발현을 복원하도록 학습시켜, 드롭아웃과 측정 노이즈에 강인한 표현을 만든다. 두 손실은 가중치와 시그모이드 스케일링을 통해 동적으로 균형을 맞추며, 추가적인 정규화 항으로 임베딩 차원 간 직교성을 유도한다.

데이터 규모는 22.3 백만 개의 세포, 124 조직, 15 장기에 걸쳐 다양성을 확보했으며, 전사체와 단백질체 두 모달리티를 모두 포함한다. 특히 유전자 임베딩을 고정된 어휘가 아니라 공동발현 네트워크와 위치 정보를 통해 동적으로 생성하기 때문에, 사전 학습 시 보지 못한 유전자나 단백질 마커에도 자연스럽게 확장할 수 있다. 실험에서는 (1) 임상 결과 예측(면역치료 반응, 완치 여부), (2) 세포 유형 주석, (3) 유전자 보간, (4) 세포 클러스터링 네 가지 다운스트림 작업에서 기존 최첨단 모델 대비 5 %~20 % 이상의 성능 향상을 기록했으며, 추론 속도는 SC‑GPT‑Spatial 대비 8배, SC‑Foundation 대비 48배로 크게 개선되었다.

핵심 기여는 (i) 공간‑유전자 위계를 동시에 모델링한 최초의 파운데이션 모델, (ii) 방향성 cross‑level 어텐션을 통한 양방향 정보 흐름 설계, (iii) 고정 어휘에 얽매이지 않는 유연한 유전자/단백질 임베딩, (iv) 대규모 다기관·다조직 사전 학습을 통한 일반화 능력이다. 이러한 설계는 향후 조직학적 맥락을 고려한 다중오믹스 통합 분석, 희귀 질환 데이터에 대한 전이 학습, 그리고 실시간 임상 의사결정 지원 시스템 등에 활용될 잠재력이 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기