EVA 면역 시스템 보편 모델을 향한 도전

면역 매개 질환의 전이 연구에 기반 모델을 효과적으로 적용하려면 다세포 상호작용에서 발생하는 복합 표현형을 포착할 수 있는 환자 수준의 다중모달 표현이 필요합니다. 그러나 현재 대부분의 생물학적 기반 모델은 단일 세포 해상도에만 초점을 맞추고, 실제 약물 개발 과제와는 동떨어진 기술적 지표로만 평가됩니다. 본 연구에서는 면역 및 염증이라는 치료 영역에서 공

EVA 면역 시스템 보편 모델을 향한 도전

초록

면역 매개 질환의 전이 연구에 기반 모델을 효과적으로 적용하려면 다세포 상호작용에서 발생하는 복합 표현형을 포착할 수 있는 환자 수준의 다중모달 표현이 필요합니다. 그러나 현재 대부분의 생물학적 기반 모델은 단일 세포 해상도에만 초점을 맞추고, 실제 약물 개발 과제와는 동떨어진 기술적 지표로만 평가됩니다. 본 연구에서는 면역 및 염증이라는 치료 영역에서 공유 병리 메커니즘을 활용한 전이 학습 기회를 제공하는 최초의 종간·다중모달 기반 모델인 EVA를 소개합니다. EVA는 종, 플랫폼, 해상도에 걸친 전사체 데이터를 정규화하고 조직학 데이터를 통합하여 풍부하고 통합된 환자 표현을 생성합니다. 모델 규모와 연산량을 늘릴수록 사전학습 및 하위 과제 성능이 향상되는 명확한 스케일링 법칙을 제시합니다. 약물 개발 파이프라인 전반을 아우르는 39개의 과제(제로샷 표적 효능·유전자 기능 예측, 종간·질병간 분자 교란 예측, 치료 반응·질병 활성도 예측 등)를 포함한 평가 스위트를 구축하고, 기존 최첨단 생물학적 기반 모델 및 베이스라인과 비교하여 모든 과제 범주에서 최고 수준의 결과를 달성했습니다. 기계적 해석을 통해 생물학적으로 의미 있는 특징을 식별하고, 종과 기술을 초월한 얽힌 표현을 밝혀냈습니다. 면역 매개 질환 연구를 가속화하기 위해 전사체 전용 공개 버전을 제공합니다.

상세 요약

EVA는 면역학과 염증 연구에 특화된 최초의 크로스‑스페시스(multispecies)·멀티모달(foundation) 모델로, 기존 단일세포 전사체 기반 모델이 갖는 한계를 근본적으로 극복하고자 한다. 첫 번째 혁신은 데이터 통합 단계에 있다. 인간, 마우스, 원숭이 등 여러 종의 전사체 데이터를 동일한 표현 공간에 매핑하기 위해, 저자들은 배치 효과와 플랫폼 차이를 보정하는 고차원 정규화 파이프라인을 설계했으며, 이는 서로 다른 실험 조건에서도 일관된 생물학적 신호를 유지하도록 한다. 두 번째 혁신은 조직학 이미지와 전사체 데이터를 동시에 학습시킨다. 이미지‑텍스트 멀티모달 어텐션 메커니즘을 도입해 조직학적 미세구조와 유전자 발현 패턴 사이의 상관관계를 모델이 스스로 학습하도록 함으로써, 세포 수준의 정보와 조직 수준의 맥락을 하나의 벡터에 결합한다.

스케일링 법칙에 대한 실증적 검증도 눈여겨볼 부분이다. 모델 파라미터 수와 연산량을 단계적으로 확대하면서 사전학습 손실과 39개의 다운스트림 과제 성능을 동시에 측정했으며, 거의 선형에 가까운 성능 향상을 관찰했다. 이는 대규모 컴퓨팅 자원이 확보될 경우, 면역학 분야에서도 ‘큰 모델이 좋은 결과를 만든다’는 기존 딥러닝의 일반적 추세가 적용 가능함을 시사한다.

다운스트림 평가 세트는 실제 약물 개발 파이프라인을 반영하도록 설계되었다. 제로샷 표적 효능 예측은 신약 후보 물질이 특정 면역 표적에 미치는 영향을 사전학습된 지식만으로 추정하는 작업으로, 기존에는 별도의 실험 데이터가 필요했지만 EVA는 전사체와 조직학 정보를 활용해 높은 정확도를 달성했다. 또한, 종간 교차 검증을 통해 마우스 모델에서 얻은 분자 교란 결과를 인간 질환에 전이하는 능력을 검증했으며, 이는 전임상‑임상 간 격차를 줄이는 데 큰 의미가 있다. 환자 층위에서는 치료 반응 예측과 질병 활동도 추정에서 기존 베이스라인보다 현저히 높은 ROC‑AUC를 기록했으며, 이는 임상 시험 설계 시 환자군을 효율적으로 선별하는 데 직접 활용될 수 있다.

해석 가능성 측면에서는, 모델 내부의 어텐션 가중치를 시각화해 특정 유전자와 조직학적 특징이 어떻게 결합되는지 분석했다. 예를 들어, 인터루킨‑6(IL‑6) 발현과 염증성 세포 침윤 패턴이 동일한 차원에 매핑되는 것을 확인했으며, 이는 인간·마우스 모두에서 보존되는 면역 메커니즘을 모델이 자동으로 학습했음을 의미한다.

한계점으로는 아직 전사체와 조직학 외의 다중오믹스(예: 단백질체, 메타볼로믹스) 데이터가 포함되지 않아, 전사체 수준에서 포착되지 않는 후기 조절 메커니즘을 반영하기 어렵다는 점이다. 또한, 대규모 모델 학습에 필요한 GPU·TPU 자원이 제한된 연구기관에서는 재현이 어려울 수 있다. 향후 연구에서는 멀티오믹스 통합, 희귀 질환 데이터 확장, 그리고 경량화된 파인튜닝 전략을 개발해 실용성을 높이는 것이 필요하다.

전반적으로 EVA는 면역학 분야에서 ‘범용 기반 모델’이라는 새로운 패러다임을 제시하며, 데이터 통합, 스케일링, 실용적 평가 체계라는 세 축을 동시에 충족시킨 점이 가장 큰 강점이다. 이는 향후 면역 매개 질환의 신약 발굴과 정밀 의학 적용에 있어 핵심 인프라로 자리매김할 가능성을 보여준다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...