세포 반응 예측을 위한 검색 강화 생성 모델 PT RAG
초록
본 논문은 유전자 교란에 대한 단일 세포 전사체 반응을 예측하기 위해 두 단계 검색‑증강 생성 프레임워크 PT‑RAG를 제안한다. GenePT 임베딩으로 후보 교란을 먼저 선정하고, 세포 유형과 목표 교란을 조건으로 Gumbel‑Softmax 기반 차별화 가능한 선택을 수행한다. Replogle‑Nadig 데이터셋에서 기존 STATE 모델과 일반 RAG를 능가하며, 특히 셀 타입에 따라 다른 교란을 선택하는 것이 성능 향상에 핵심임을 보인다.
상세 분석
PT‑RAG는 기존의 perturbation response 예측 모델이 갖는 “컨텍스트 부족” 문제를 해결하기 위해 Retrieval‑Augmented Generation(RAG) 개념을 생물학적 도메인에 적용한다. 첫 번째 단계에서는 GenePT라는 사전 학습된 유전자 임베딩을 이용해 입력 교란과 의미적으로 유사한 K개의 후보 교란을 비차별화 방식으로 추출한다. 이때 사용된 코사인 유사도는 유전자 기능 서술을 기반으로 하므로, 기능적으로 연관된 교란이 같은 맥락에 포함될 가능성이 높다. 두 번째 단계는 차별화 가능한 Gumbel‑Softmax 샘플링을 통해 후보 교란 중 실제로 컨텍스트로 사용할지를 결정한다. 여기서 입력은 세포 상태 임베딩(h_ctrl), 목표 교란 임베딩(h_pert), 후보 교란 임베딩(h_cxt_k)으로 구성된 삼중벡터 c_k이며, 이를 LayerNorm 후 MLP에 통과시켜 “include”와 “exclude” 로그잇을 얻는다. 온도 τ를 조절하는 Straight‑Through Gumbel‑Softmax은 이산 선택을 유지하면서 역전파가 가능하도록 만든다. 선택된 후보들의 임베딩은 또 다른 MLP을 거쳐 h′_k 로 변환되고, w_k(0/1) 가 곱해진 후 합산되어 최종 컨텍스트 벡터 z가 된다. 이 z는 기존의 CellEncoder와 PerturbationEncoder 출력과 합쳐져 Transformer‑Generator에 입력되며, 고차원 전사체 분포 ˆx_pert 를 출력한다. 학습 목표는 에너지 거리 기반의 distributional loss와 선택을 희소하게 만들기 위한 L1 sparsity loss의 가중합이다. 실험에서는 Replogle‑Nadig 데이터셋의 2,009개 교란과 4가지 세포 유형(K562, Jurkat 등)을 사용해 교차‑세포 유형 few‑shot 설정을 적용했으며, PT‑RAG가 STATE 모델보다 Wasserstein‑1, Wasserstein‑2 거리에서 평균 12% 이상 개선된 것을 보고한다. 특히, vanilla RAG는 비차별화된 고정 검색으로 인해 성능이 크게 저하되었으며, 이는 “컨텍스트 선택이 세포 유형에 따라 달라야 한다”는 핵심 가설을 실증한다. 추가 분석에서는 동일 교란에 대해 서로 다른 세포 유형에서 선택된 후보 교란의 겹침 비율이 약 19%에 불과함을 보여, PT‑RAG가 세포 유형 특이적인 검색 전략을 학습함을 확인한다. 전체적으로 PT‑RAG는 생물학적 도메인에서 차별화 가능한 검색‑증강 생성이 어떻게 모델 일반화와 정확도를 동시에 향상시킬 수 있는지를 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기