셀포지 가상 세포 모델 에이전트 설계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

셀포지는 다중 에이전트 프레임워크로, 단일 세포 멀티오믹스 데이터와 특정 교란 과제를 입력받아 자동으로 맞춤형 신경망 아키텍처를 설계·구현한다. 협업형 에이전트가 데이터 특성을 분석하고 문헌을 검색한 뒤, 그래프 기반 토론을 통해 새로운 인코더·디퓨전 모듈 등을 제안하고, 실행 가능한 코드를 생성한다. 6개의 다양한 교란 데이터셋에서 기존 베이스라인과 경쟁하거나 우수한 성능을 보이며, 인간 설계자나 단일 LLM보다 창의적인 모델을 자동으로 만든다는 점이 핵심이다.

상세 분석

셀포지는 가상 세포 모델링이라는 복합 문제를 해결하기 위해 “에이전트 협업”이라는 새로운 패러다임을 제시한다. 첫 번째 모듈인 Task Analysis 에이전트는 원시 멀티오믹스 데이터를 파싱하고, 배치 효과, 희소성, 스케일 등 통계적 특성을 자동으로 추출한다. 이어서 문헌 검색 에이전트가 고정된 46편의 핵심 논문과 실시간 PubMed 검색을 결합해, BFS·DFS 전략으로 설계 원칙을 도출한다. 여기서 얻은 설계 힌트는 Dataset Expert, Model Architecture Expert, Training Expert 등 전문화된 에이전트에게 전달된다.

Design 모듈에서는 그래프 기반 토론 메커니즘이 핵심이다. 각 에이전트는 제안·비판·수정 과정을 반복하며, 신뢰도 점수(confidence score)를 동적으로 업데이트한다. 예를 들어, Model Architecture Expert는 “trajectory‑aware encoder + perturbation diffusion module”이라는 새로운 블록을 제안하고, Critic Agent는 기존 베이스라인 대비 계산 효율성과 표현력 측면에서 평가한다. 신뢰도 점수가 사전 정의된 임계값을 초과하면 설계가 수렴하고, 최종 설계 사양이 확정된다.

Experiment Execution 에이전트는 설계 사양을 기반으로 파이썬·PyTorch 코드와 Dockerfile을 자동 생성한다. 자동 디버깅 루프를 통해 컴파일 오류와 학습 불안정을 탐지하고, 필요 시 하이퍼파라미터를 재조정한다. 이렇게 생성된 모델은 각 데이터셋별 교란 예측(task: gene knockout, drug treatment, cytokine stimulation)에서 MSE, Pearson correlation, perturbation consistency 등 3가지 지표로 평가된다.

실험 결과는 6개의 데이터셋( scRNA‑seq, scATAC‑seq, CITE‑seq 혼합)에서 셀포지가 제시한 모델이 기존 GEARS, scGPT, Geneformer 등 최신 베이스라인과 동등하거나 상위 성능을 기록함을 보여준다. 특히, 데이터 특성이 강하게 다를 때(예: 높은 배치 효과, 극단적 희소성) 에이전트가 설계한 맞춤형 전처리 파이프라인과 특수 인코더가 성능 격차를 크게 줄인다.

핵심 기여는 두 가지이다. 첫째, 다중 에이전트가 협업해 설계·코드·검증까지 전 과정을 자동화함으로써 인간 전문가가 수행하던 “아이디어 → 구현 → 튜닝” 루프를 통합했다. 둘째, 에이전트 토론을 통해 기존 문헌에 없는 새로운 모듈(trajectory‑aware encoder, perturbation diffusion) 등을 스스로 발명한다는 점이다. 이는 단순히 하이퍼파라미터 탐색을 넘어, 완전한 방법론 혁신을 자동으로 이끌어낼 수 있음을 증명한다.

셀포지 가상 세포 모델 에이전트 설계

초록

상세 분석

댓글 및 학술 토론

의견 남기기