스마트셀 파일럿: 대형 언어 모델로 자동 단일세포 분석 구현
초록
scPilot은 대형 언어 모델(LLM)이 단일세포 RNA‑seq 데이터를 직접 살펴보고, 단계별 추론·증거 제시·수정 과정을 거쳐 세포 유형 지정, 발달 궤적 재구성, 전사인자 타깃 예측을 자동화하는 프레임워크이다. 이를 평가하기 위해 9개의 데이터셋과 자동 채점기를 포함한 scBench 벤치마크를 제공한다. 실험 결과 o1 기반의 반복 추론이 셀 타입 정확도를 11 %·궤적 그래프 편집 거리를 30 % 개선했으며, 투명한 추론 로그를 통해 마커 유전자 모호성 및 조절 논리를 설명한다.
상세 분석
scPilot은 ‘omics‑native reasoning(ONR)’이라는 새로운 패러다임을 제시한다. 기존 LLM 활용 방식은 LLM이 텍스트를 생성하고, 미리 정의된 바이오인포매틱스 툴을 호출하는 수준에 머물렀다. 반면 scPilot은 (1) 대규모 단일세포 행렬을 요약해 LLM이 이해할 수 있는 텍스트 스케치를 생성하고, (2) LLM이 자연어로 가설을 제시·정당화하며, (3) 필요 시 직접적인 툴 호출(예: Scanpy, Monocle, pySCENIC)로 증거를 얻고, (4) 얻은 JSON 형태의 결과를 다시 LLM에게 피드백해 추론을 반복한다. 이 과정은 ‘클레임‑오퍼레이터’ 쌍(c_k, o_k)으로 기록되며, 최종 상태 S_K에서 h(S_K)로 질문에 대한 답을 도출한다.
핵심 설계 원칙은 (a) 생물학적 컨텍스트 우선: 프롬프트에 종, 조직, 실험조건 등을 명시해 LLM이 적절한 가설을 세우게 함, (b) 반복적 추론: 각 툴 호출 후 LLM이 결과를 검토·반성하고 가설을 수정, (c) 최소한의 수동 휴리스틱: 고수준 프롬프트만 제공하고 LLM 자체의 추론 능력에 의존한다.
scBench은 9개의 실제 단일세포 데이터셋(예: PBMC3k, Liver, Retina, Pancreas, Neocortex 등)과 각 작업별 정량적 지표(클러스터 정확도, 그래프‑Edit 거리, AUROC 등)를 제공한다. 평가 프로토콜은 자동 종료 조건을 사전에 정의해 LLM이 임의로 작업을 중단하거나 과도하게 반복하는 것을 방지한다.
실험에서는 최신 LLM인 o1과 Gemini‑2.5‑Pro를 사용했으며, o1 기반 scPilot이 기존 CellTypist, GPTCellType 등과 비교해 평균 셀 타입 정확도에서 0.518→0.792(간) 등 큰 폭의 향상을 보였다. 궤적 재구성에서는 Monocle‑3 기반 그래프를 LLM이 직접 조정해 그래프‑Edit 거리를 30 % 감소시켰다. 전사인자‑표적 예측에서도 AUROC가 0.03 상승했다. 특히, 모든 단계에서 LLM이 생성한 ‘추론 트레이스’는 마커 유전자의 다중 해석 가능성, 라인age 불일치, 조직 특이적 조절 논리를 명시적으로 보여주어 인간 전문가가 결과를 검증·수정하기 용이하도록 설계되었다.
한계점으로는 현재 LLM이 처리할 수 있는 컨텍스트 길이 제한으로 인해 요약 단계(Φ_q)의 설계가 데이터에 따라 최적화 필요하고, 툴 호출 오류 시 자동 복구 메커니즘이 미흡하다는 점을 들 수 있다. 또한, LLM 자체의 hallucination 위험이 존재하므로 전문가 검증이 필수적이다. 향후 연구에서는 장기 메모리와 멀티모달 입력을 결합해 더 복잡한 멀티오믹스 데이터에 적용하고, 자동 오류 복구와 신뢰도 추정 모델을 통합하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기