EVA: 면역·염증 연구를 위한 범용 멀티모달 기초 모델
📝 Abstract
The effective application of foundation models to translational research in immune-mediated diseases requires multimodal patient-level representations that can capture complex phenotypes emerging from multicellular interactions. Yet most current biological foundation models focus only on single-cell resolution and are evaluated on technical metrics often disconnected from actual drug development tasks and challenges. Here, we introduce EVA, the first cross-species, multimodal foundation model of immunology and inflammation, a therapeutic area where shared pathogenic mechanisms create unique opportunities for transfer learning. EVA harmonizes transcriptomics data across species, platforms, and resolutions, and integrates histology data to produce rich, unified patient representations. We establish clear scaling laws, demonstrating that increasing model size and compute translates to improvements in both pretraining and downstream tasks performance. We introduce a comprehensive evaluation suite of 39 tasks spanning the drug development pipeline: zero-shot target efficacy and gene function prediction for discovery, cross-species or cross-diseases molecular perturbations for preclinical development, and patient stratification with treatment response prediction or disease activity prediction for clinical trials applications. We benchmark EVA against several state-of-the-art biological foundation models and baselines on these tasks, and demonstrate state-of-the-art results on each task category. Using mechanistic interpretability, we further identify biological meaningful features, revealing intertwined representations across species and technologies. We release an open version of EVA for transcriptomics to accelerate research on immune-mediated diseases.
💡 Analysis
**
1. 연구 배경 및 필요성
- 멀티모달 데이터의 파편화: 현재 공개된 생물학 데이터는 전사체, 조직학, 단백질 등 다양한 형태로 존재하지만, 각 모달리티가 포착하는 생물학적 상태는 부분적이다. 이를 통합할 체계적인 방법이 부족하다.
- 단일모달 기초 모델의 한계: scGPT, Geneformer, BulkRNABert 등은 전사체(주로 인간, 단일 기술)만을 대상으로 하며, 실제 약물 개발에 필요한 교차 종·교차 기술 전이 학습 능력이 검증되지 않았다.
- 면역·염증 분야의 특수성: 사이토카인 신호망(TNF, JAK‑STAT) 등은 인간·마우스 간에 고도로 보존되어 있어 교차 종 전이가 가능한 이상적인 시험베드다.
2. EVA의 핵심 설계
| 구성 요소 | 파라미터 수 | 역할 |
|---|---|---|
| 전사체 인코더 (EVA‑RNA) | 300 M | 인간·마우스 bulk, microarray, pseudo‑bulk single‑cell 데이터 통합 |
| 조직학 인코더 (EVA‑H) | 85 M | 면역 조직학 이미지(HE 슬라이드) 임베딩 |
| 멀티모달 Fusion Head | 55 M | 두 인코더의 고정된 표현을 결합, 대조 학습 수행 |
- 교차 종 정렬 초기화: 인간‑마우스 정형화된 ortholog 매핑을 이용해 초기 임베딩을 근접하게 배치, 이후 학습 과정에서 점진적 정렬을 강화한다.
- 대조 학습(Contrastive Learning): 전사체와 조직학 임베딩을 서로 정렬시키는 목표를 통해 공통 잠재 공간을 형성, 이는 후속 다운스트림 과제에서 멀티모달 시너지 효과를 제공한다.
- Sparse Autoencoder 기반 해석: Top‑K SAE를 이용해 1,500개의 “concept”를 추출, 종·기술을 초월하는 생물학적 신호(예: 장 상피, 신경, 림프구 프로그램)를 식별한다.
3. 스케일링 법칙 및 성능 향상
- 모델 크기 실험: 7 M → 300 M 파라미터까지 5가지 규모를 동일 데이터·하이퍼파라미터로 학습.
- Power‑law 관계: 사전학습 검증 손실(Loss)과 다운스트림 AUROC 모두 파라미터 수와 연산량에 대해 log‑log 선형 관계를 보이며, 현재 300 M 규모에서도 포화 현상이 관찰되지 않는다. 이는 대규모 전사체 모델이 아직 성장 여지가 크다는 것을 시사한다.
4. 39개 베치마크 과제 – 실질적 임팩트
| 단계 | 과제 예시 | EVA 성과 (AUROC 등) | 기존 모델 대비 |
|---|---|---|---|
| Discovery | 제로샷 타깃 효능 예측, 유전자 기능 예측 | 전체 평균 AUROC ≈ 0.84 | +12 %~+25 % |
| Preclinical | 교차 종/질환 교란 전이, in‑silico 유전자 과발현/억제 | 평균 AUROC ≈ 0.78 | +15 % |
| Clinical | 치료 반응 예측, 질병 활동도 예측, 엔도타입 분류 | 평균 AUROC ≈ 0.81 | +10 %~+30 % (특히 로지스틱 회귀 베이스라인을 크게 앞섬) |
- 치료 효과 예측 사례: TNFα 억제제가 Crohn’s disease와 Psoriatic arthritis에서는 효능을, Atopic dermatitis에서는 비효능을 정확히 구분, 이는 기존 단순 상관 기반 베이스라인이 놓친 질환 특이적 맥락을 포착한 결과이다.
- 멀티모달 시너지: IBDome 데이터에서 조직염증 및 Montreal disease course 분류 시, 단일 인코더 대비 멀티모달 후학습 모델이 3~5 % AUROC 상승을 기록, 대조 학습이 임베딩 풍부성을 높인 것으로 해석된다.
5. 교차 종·기술 정렬 메커니즘
Ortholog 정렬 지표: 16,168개의 인간‑마우스 ortholog 쌍에 대해 Nearest Neighbor Median Rank를 추적, 학습 초기에 일시적 악화 후 지속적인 개선을 확인.
유전자 카테고리별 차이: 면역 관련 유전자는 최종 정렬 순위가 가장 낮아, 면역 유전자가 교차 종 정렬에 특화된 구조를 학습함을 시사한다.
Concept 분석:
- Concept 23: 장 상피 특이성 (KRT19, GUCA2B 등) – 인간·마우스 RNA‑seq 모두에서 활성.
- Concept 1292: 림프구 TCR 신호 경로 (TRAC, CD3D 등) – 모든 전사체 기술·종에서 일관된 활성.
- Concept 607: 상피 장벽 분화 (Krt32, Slpi 등) – 마우스 전사체·pseudo‑bulk 모두에서 검출.
이러한 결과는 EVA가 기술·종을 초월해 동일한 생물학적 프로그램을 인코딩한다는 강력한 증거다.
6. 한계 및 향후 과제
- 데이터 편향: 현재 I&I 분야에 집중돼 있어, 암, 대사질환 등 다른 영역에 대한 일반화는 추가 검증이 필요.
- 모델 규모: 300 M 파라미터에서도 포화가 관찰되지 않았으나, 1 B 파라미터 수준까지 확장 시 연산 비용·환경 부담이 커질 수 있다.
- 해석 가능성: Sparse Autoencoder 기반 “concept”는 유용하지만, 자동화된 생물학적 의미 부여와 임상 해석을 위한 전문가 검증 파이프라인이 아직 미비하다.
- 실시간 임상 적용: 현재는 대규모 오프라인 평가에 초점이 맞춰져 있어, 실제 임상 현장에서 실시간 환자 임베딩 및 예측을 위한 경량화 모델이 필요하다.
7. 종합 평가
EVA는 교차 종·멀티모달 통합이라는 핵심 난제를 해결하고, 면역·염증 분야의 전사체·조직학 데이터를 하나의 통일된 환자 임베딩으로 전환한다. 스케일링 법칙을 명시적으로 검증하고, 39개의 실제 약물 개발 과제에서 전반적인 최고 성능을 달성함으로써, 기존 기초 모델이 갖던 “연구‑실제 격차”를 크게 줄였다. 또한, 해석 가능한 개념 추출을 통해 생물학적 신뢰성을 확보했으며, 오픈 소스 배포를 통해 커뮤니티 확산 가능성을 높였다. 향후 다양한 질환군과 더 큰 모델 규모, 경량화된 임상 적용을 통해 전사체·이미지 기반 정밀 의학의 핵심 인프라로 자리매김할 잠재력이 크다.
**
📄 Content
**공개된 생물학적 데이터가 영상 및 분자 모달리티(차세대 시퀀싱 포함) 전반에 걸쳐 폭발적으로 증가하면서 전례 없는 기회와 근본적인 도전 과제가 동시에 제기되고 있습니다. 그러나 각 모달리티는 생물학적 상태를 부분적으로만 포착하고, 이러한 보완적 관점을 통합하는 방법은 아직 충분히 개발되지 않았습니다. 생물학적 기반 모델(biological foundation models)은 대규모 데이터에서 풍부한 표현을 학습하는 유망한 패러다임으로 떠오르고 있지만[1], 현재 접근법은 주로 단일 모달리티 내에서 작동하고 있습니다. 전사체학[2][3][4][5], 조직학[6][7][8], 유전체학[9][10][11][12][13], 단백질[14][15][16][17] 분야에서 눈에 띄는 성과가 있었지만, 모달리티 간 통합은 상대적으로 탐구가 부족한 상태입니다. 최근에는 조직학‑전사체학 결합 모델[18,19]이나 ESM‑3와 같은 다중모달 단백질 모델[16]이 등장했지만, 전체 생물학적 데이터 유형에 걸친 체계적인 통합은 아직 초기 단계이며, 이러한 통합이 제공할 수 있는 보완적 통찰은 크게 활용되지 않고 있습니다.
특히 전사체학 분야에서는 고해상도 단일세포 모델(일명 “가상 세포”[20])에 많은 노력이 집중되었습니다. 최신 벤치마크에 따르면 이러한 단일세포 모델은 실제 하위 작업에서 단순 베이스라인보다 크게 우수하지 못한 경우가 많으며, 특히 분포 외(out‑of‑distribution) 상황에서 그 한계가 두드러집니다[21,22]. 이는 사전학습(pre‑training) 단계에서 학습된 표현과 전이학습(transfer learning)에 필요한 표현 사이에 정렬 불일치가 존재할 가능성을 시사합니다. 다른 모달리티의 기반 모델도 각각 고유한 도전에 직면해 있습니다. 조직학 모델은 암 분야에서 명확한 개선을 보였지만, 암 이외의 영역으로 일반화하는 데 어려움을 겪고 있습니다[23]; 단백질 및 유전체 모델 역시 생물학적 맥락에 따라 전이학습 성능이 크게 달라집니다[24,25]. 최근 커뮤니티에서는 표준화된 평가 프레임워크를 구축하려는 시도가 시작되었지만[26,27], 이미지넷(ImageNet)이나 CASP처럼 약물 발견 및 번역 연구에 직접적인 영향을 미칠 수 있는 의미 있는 벤치마크는 아직 부족합니다.
본 연구에서는 EVA(Immunology & Inflammation, I & I)를 최초로 소개합니다. EVA는 면역·염증 분야의 교차 종(multispecies), 다중모달(multimodal) 기반 모델로, 질병 관련 메커니즘이 종 간에 보존되는 특성(예: 사이토카인 신호망(TNF, JAK‑STAT), 겹치는 유전적 감수성 좌위, 공통 효력 세포군 등)[28,29]을 활용해 전이학습에 독특한 기회를 제공합니다. EVA는 환자 수준의 표현을 생성하며, 통합 전사체 인코더와 면역학 특화 조직학 모델, 그리고 각 인코더의 고정된 표현을 이용해 학습된 교차‑모달 헤드로 구성됩니다. 우리의 주요 기여는 모델 아키텍처 및 초기화, 학습 방법론, 하위 작업 정렬, 평가 및 해석 가능성에 이릅니다.
주요 기여
- 규모: EVA는 440 M 파라미터(300 M 파라미터 전사체 인코더, 85 M 파라미터 조직학 인코더, 55 M 파라미터 융합 헤드) 모델로, 인간·마우스의 bulk RNA‑seq, 마이크로어레이, 의사‑bulk(single‑cell) 및 조직학 데이터를 50 여 개 조직·조건에 걸쳐 통합된 샘플 임베딩으로 변환합니다.
- 벤치마크: 약물 발견 파이프라인 전반을 아우르는 39개의 작업을 포함하는 I & I 벤치마크를 구축했습니다. 여기에는 제로‑샷 타깃 효능·유전자 기능 예측(발견), 교차‑종·조건·조직 간 분자 교란 번역(전임상), 환자 군집화·치료 반응 예측·분자‑임상 질병 활성 매핑(임상) 등이 포함됩니다.
- 스케일링: EVA‑RNA 전사체 인코더는 300 M 파라미터까지 확장해도 성능이 포화되지 않으며, 사전학습 검증 손실이 감소할수록 벤치마크 성능도 일관되게 향상됨을 확인했습니다.
- 해석 가능성: Top‑K 활성화를 갖는 희소 자동인코더(sparse auto‑encoder)를 활용해, 종·기술을 초월해 얽힌 표현을 드러내는 해석 가능한 특징을 추출했습니다.
또한 본 논문과 함께 EVA‑RNA의 오픈 버전을 HuggingFace에 공개하여, 계산 면역학 및 약물 발견 연구를 가속화하고자 합니다.
2. 결과
우리는 약물 개발의 핵심 단계인 발견(discovery), 전임상(preclinical), 임상(clinical) 영역을 아우르는 39개의 작업에 대해 EVA를 평가했습니다. 벤치마크는 8개의 I & I 질환(다양한 장기·조직 포함)을 포괄합니다. 전사체 관련 작업은 EVA‑RNA 인코더를, 조직학 관련 작업은 EVA‑H 타일 임베딩을 사용했습니다. 표 1에 요약된 바와 같이, EVA는 통계적 베이스라인 및 기존 전사체 기반 모델(단일세포·bulk RNA‑seq 모두)보다 모든 작업군에서 명확히 우수한 성능을 보였습니다. 특히 치료 결과 예측이나 엔도타입 분류에서는 기존 모델을 단순 로지스틱 회귀 베이스라인이 능가하던 상황을 EVA가 크게 개선했습니다. 조직학 모델 역시 최신 최첨단 모델과 경쟁력을 유지하면서, 조직병리 진단·활동 점수 매기기에서 강력한 성능을 기록했습니다(표 2). 벤치마크와 작업 상세는 섹션 3.7에 기술되어 있습니다.
약물‑질환 효능 예측
이 작업은 “특정 약물의 분자 타깃을 억제하거나 과발현시키는 것이 해당 질환 환자에게 이득이 되는가?”를 묻습니다. 우리는 RNA‑foundation 모델의 디코더 그래디언트를 이용해 in‑silico 유전자 교란을 수행했으며, 이는 Bjerregaard 등[31]이 제안한 방법과 동일합니다(방법 3.6).
평가를 위해 6개 질환에 걸쳐 28개의 약물(각 약물은 하나 이상의 분자 타깃을 가짐)을 매트릭스로 구성했으며, 임상 효능 여부를 라벨링했습니다(일부 조합은 임상 데이터 부족으로 결측). 또한, 분야 전문가가 선정한 생물학적으로 비현실적인 5개의 타깃을 네거티브 컨트롤로 추가했습니다.
각 환자에 대해 해당 타깃을 교란한 후, 변형된 전사체 상태가 건강 조직과 얼마나 가까워졌는지를 기하학적으로 측정했습니다. 점수는 0~1 사이이며, 값이 클수록 건강형태에 근접함을 의미합니다. 환자별 점수를 평균내어 약물‑질환 쌍마다 중위 점수를 산출하고, 이를 기준으로 순위를 매겨 AUROC를 계산했습니다. 전체 질환을 통합한 global AUROC와 개별 질환별 AUROC는 각각 표 1, 그림 2에 제시됩니다.
모델은 단순 상관 기반 선형 베이스라인이 포착하지 못하는 질환 특이적 약물 효과를 포착했습니다. 예를 들어, TNFα 억제제는 크론병과 건선성 관절염에서는 효능이 높게 예측되었지만, 아토피 피부염에서는 효능이 낮게 예측되었습니다. 이는 각 질환의 병리학적 차이를 반영한 결과이며, 선형 베이스라인(RNA‑seq 유전자 발현 상관 행렬 기반)에서는 이러한 구분이 불가능했습니다. 0.5 임계값에서 모델의 **양성 예측값(PPV)**은 58%에 달했으며, 이는 I & I 분야의 2상 임상 성공률(≈30%)보다 크게 상회합니다.
다중모달 사후학습이 성능을 향상
다중모달 사후학습이 하위 작업에 미치는 영향을 평가하기 위해 IBDome 데이터셋의 두 가지 예측 작업(조직 염증 이진 분류, 크론병의 Montreal 병코스 분류)을 사용했습니다. 우리는 CLAM 집계 알고리즘[32]을 적용해 EVA‑RNA와 EVA‑H 임베딩을 각각 사용하거나, 다중모달 통합 임베딩(EVA 최종 레이어)으로 학습했습니다. 결과는 표 3에 나타나며, 다중모달 모델이 일관되게 우수함을 확인했습니다. 이는 **대조 학습(contrastive learning)**을 통한 다중모달 사후학습이 보다 풍부한 데이터 표현을 생성함을 시사합니다.
기술·종 간 데이터 파편화와 통합
전사체 데이터는 마이크로어레이, bulk RNA‑seq, single‑cell RNA‑seq 등 다양한 기술에서 생성되며, 각각 고유한 편향·동적 범위·노이즈를 가집니다[33,34]. 이러한 기술적 이질성을 통합하면, 오래된 마이크로어레이 데이터와 최신 single‑cell 데이터 모두를 재활용할 수 있어 연구 효율성이 크게 향상됩니다. 그러나 실제 통합은 여전히 어려운 과제이며[35], 특히 **번역 연구(translational research)**에서는 인간·마우스 간 데이터 통합이 필수적입니다. 기존 scGPT[4], Geneformer[3], BulkRNABert[36] 등은 인간 데이터와 단일 전사체 모달리티에만 초점을 맞추어, 번역 연구에 제한적이었습니다.
EVA‑RNA의 다중기술·다중종 통합
본 절에서는 EVA‑RNA가 입력 임베딩, 맥락화된 유전자 임베딩, 샘플 임베딩(CLS 토큰) 수준에서 어떻게 종·기술을 통합하는지 분석했습니다. 마우스와 인간의 마이크로어레이·bulk RNA‑seq·pseudobulk(single‑cell) 데이터를 공동 학습함으로써, EVA‑RNA는 두 종에 걸친 풍부한 표현을 효과적으로 학습합니다.
- 입력 임베딩: 그림 3a는 최근접 이웃 중앙 순위(median rank)의 변화를 보여줍니다. 학습 초기에 마우스 유전자는 인간 직교 유전자와 거리가 멀어지지만(step ≈ 5,000), 이후 지속적으로 정렬이 개선됩니다. 이는 초기 학습 단계에서 모델이 잠재 공간을 재구성하기 때문으로 해석됩니다. 면역 관련 유전자는 다른 그룹보다 최종 순위가 현저히 낮아, 종 간 정렬이 특히 강함을 나타냅니다.
- 맥락화된 유전자 임베딩: 그림 3b는 30번째 레이어(N‑1)의 임베딩을 초기와 최종 체크포인트에서 비교합니다. 초기에는 종별 클러스터링이 뚜렷하지만, 최종에는 두 종이 공통 공간에 통합됩니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.