표현 기반 단일세포 유전체 탐색을 위한 인터프리터 하이브리드 AI 에이전트 ELISA

ELISA는 scGPT가 만든 전사체 임베딩과 BioBERT 기반 의미 검색을 결합한 인터프리터 프레임워크이다. 자동 쿼리 분류기로 유전자 서명, 자연어 개념, 혼합 입력을 구분하고, 각각을 유전자 마커 스코어링, 의미 유사도 검색, 혹은 역순위 융합(RRF) 파이프라인에 라우팅한다. 클러스터 수준의 경로 활성화, 리간드‑수용체 상호작용, 조건별 비교, 세포 비율 추정 등 4가지 분석 모듈을 임베딩만으로 수행하며, 결과는 LLaMA‑3.1‑8B…

저자: Omar Coser

표현 기반 단일세포 유전체 탐색을 위한 인터프리터 하이브리드 AI 에이전트 ELISA
본 논문은 단일세포 전사체 데이터의 해석을 자동화하고, 인간 연구자가 자연어로 질문을 제시했을 때 의미 있는 생물학적 답변을 얻을 수 있는 통합 플랫폼 ELISA(Embedding‑Linked Interactive Single‑cell Agent)를 제안한다. 기존의 AI 기반 바이오 시스템은 텍스트 지식에 강하지만 전사체 고차원 표현에 직접 접근하지 못하고, 반대로 scGPT와 같은 표현 기반 모델은 풍부한 전사체 정보를 학습했지만 자연어와의 연결 고리가 부족했다. ELISA는 이러한 격차를 메우기 위해 두 종류의 임베딩을 하나의 직렬화 파일(.pt)로 결합한다. 데이터 전처리 단계에서는 표준적인 QC, 정규화, 고변이 유전자 선택, PCA, 이웃 그래프 구축, Leiden 클러스터링을 수행하고, 각 클러스터에 대해 차별 발현 통계와 GO/Reactome 어노테이션을 산출한다. 차별 발현 통계는 scGPT를 이용해 768차원 임베딩으로 변환하고, 어노테이션 텍스트는 BioBERT를 통해 동일 차원 수의 의미 임베딩으로 변환한다. 이렇게 생성된 두 임베딩은 클러스터 레벨에서 병합되어, 이후 쿼리 단계에서 원본 카운트 매트릭스 없이도 모든 분석이 가능하도록 설계되었다. 쿼리 라우팅은 자동 분류기로 구현된다. 입력이 유전자 심볼 토큰 비중이 60% 이상이면 ‘유전자 서명’으로 판단해 차별 발현 스코어링 파이프라인에 전달한다. 반면 자연어 개념이면 BioBERT 임베딩을 이용해 코사인 유사도 검색을 수행하고, Cell Ontology 명칭 부스팅과 동의어 확장을 적용한다. 두 유형이 혼합된 경우에는 각각의 스코어를 역순위 융합(RRF, k=60)하여 최종 순위를 산출한다. 또한, Union 전략을 통해 두 파이프라인 중 더 높은 Recall을 보이는 결과를 기본으로 하고, 보완적인 결과를 추가한다. 분석 모듈은 네 가지 핵심 기능을 제공한다. 첫째, 리간드‑수용체 상호작용 예측은 CellChat, CellPhoneDB, NicheNet에서 수집한 280여 쌍을 기반으로 클러스터 간 점수를 계산한다. 둘째, 경로 활성화 스코어링은 면역, 세포생물학, 신경과학, 대사, 조직 특이 5개 카테고리의 60여 유전자 집합에 대해 평균 표준화 점수를 제공한다. 셋째, 조건별 비교는 메타데이터에 정의된 실험군과 대조군을 이용해 클러스터별 차별 발현을 정량화하고, 차이점을 시각화한다. 넷째, 비율 분석은 각 클러스터의 셀 수와 조건별 변화를 계산해, 세포 구성 변화까지 포괄한다. 이 모든 결과는 LLaMA‑3.1‑8B(temperature 0.2) LLM에게 전달되어, 사전에 정의된 프롬프트에 따라 데이터 근거와 기존 문헌을 구분하고, 과학적 가설을 제시하는 구조화된 보고서로 변환된다. LLM은 ‘발견 모드’를 통해 데이터 기반 증거, 기존 생물학 지식, 일관성 분석, 후보 가설을 포함한 네 부분으로 구성된 보고서를 자동 생성한다. 벤치마크는 6개의 공개 scRNA‑seq 데이터셋(폐 섬유증, 소아·성인 암, 면역 체크포인트 억제, 폐 오가노이드, 정상 유방 조직, 1기 뇌 발달)에서 수행되었다. 각 데이터셋마다 50개의 온톨로지 쿼리와 50개의 유전자 서명 쿼리를 설계하고, 기대되는 클러스터 집합을 사전 정의했다. 평가 지표는 Cluster Recall@k와 Mean Reciprocal Rank(MRR)이며, ELISA의 Union 모드가 CellWhisperer 대비 전체 12개 메트릭에서 p<0.001(50,000 permutations)로 통계적으로 유의미한 우위를 보였다. 특히 유전자 서명 쿼리에서 평균 MRR 차이는 +0.41, Cohen’s d=5.98이라는 큰 효과크기를 나타냈다. 분석 모듈 역시 원 논문의 핵심 유전자, 경로, 상호작용, 비율 변화를 평균 0.90 이상의 복원 점수와 0.98의 테마 커버리지를 기록했다. 결론적으로 ELISA는 scGPT 기반 전사체 임베딩과 BioBERT 기반 의미 검색을 결합한 최초의 인터프리터 AI 에이전트이며, 자동 쿼리 라우팅, 임베딩 기반 고속 분석, LLM 기반 근거 보고서를 통해 단일세포 데이터 탐색을 인간 친화적이면서도 재현 가능하게 만든다. 향후 확장 가능성으로는 멀티오믹스 임베딩 통합, 실시간 실험 설계 피드백 루프, 그리고 대규모 클라우드 배포가 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기