DIA‑CLIP: 제로샷 DIA 단백질체 분석을 위한 범용 표현 학습 프레임워크
초록
DIA‑CLIP은 듀얼 인코더와 인코더‑디코더 구조를 결합한 대규모 사전학습 모델로, 펩타이드 서열과 XIC 스펙트럼을 공유 잠재공간에 정렬한다. 사전학습된 교차‑모달 대조학습을 통해 별도 반지도학습 없이 제로샷으로 PSM 재점수를 수행하며, 기존 도구 대비 단백질 식별량을 최대 45 % 향상시키고 엔트랩먼트 기반 오류를 12 % 감소시킨다.
상세 분석
본 논문은 DIA‑MS 데이터 해석의 핵심 병목인 “런‑스페시픽” 반지도학습을 완전히 탈피하고, 범용적인 사전학습 모델을 제시한다는 점에서 혁신적이다. 모델 아키텍처는 크게 두 부분으로 나뉜다. 첫 번째는 펩타이드 서열을 처리하는 Transformer‑기반 시퀀스 인코더와, 전처리된 XIC(Extracted Ion Chromatogram) 신호를 입력받는 스펙트럼 인코더로 구성된 듀얼 인코더이다. 두 인코더는 동일한 차원의 잠재벡터로 매핑되어 교차‑모달 대조학습(contrastive learning) 목표함수에 의해 정렬된다. 이 과정에서 진짜 PSM과 엔트랩먼트(음성 샘플)를 명시적으로 구분하도록 설계돼, 모델이 미세한 스펙트럼 차이를 학습하도록 강제한다.
두 번째는 정렬된 잠재공간을 입력으로 받아, 펩타이드‑스펙트럼 간 비선형 관계를 고해상도 특징으로 디코딩하는 인코더‑디코더 구조다. 디코더는 다중 헤드 어텐션과 피드포워드 레이어를 활용해, 기존 피처 엔지니어링이 포착하지 못하는 복합적인 시계열 패턴과 아미노산 특성을 동시에 고려한다. 이렇게 얻어진 고차원 표현은 최종 PSM 스코어링에 사용되며, 별도의 파라미터 튜닝 없이 제로샷 추론이 가능하도록 설계되었다.
학습 데이터는 28 백만 개 이상의 고신뢰 PSM을 포함하는 다종(인간, 효모, 대장균 등) 및 다양한 기기(Astral, TripleTOF)에서 수집된 대규모 데이터셋이다. 엔트랩먼트 샘플을 음성 클래스로 포함시켜 대조학습을 수행함으로써, 모델이 “진짜”와 “가짜”를 구분하는 능력을 사전학습 단계부터 내재화한다. 이로써 새로운 실험에 대해 별도의 반지도학습을 수행할 필요가 없으며, 데이터 스케일이 작거나 초저 입력(single‑cell) 상황에서도 강인한 성능을 유지한다.
성능 평가에서는 HeLa 셀 라이스, 다중 종 혼합물, 임상 유방암 샘플, 초저 입력 단일 세포 등 네 가지 실험군을 대상으로 비교했다. 전통적인 DIA‑NN, MaxDIA, MSFragger‑DIA 등과 비교했을 때, 평균 단백질 식별량이 6–45 % 상승하고, 엔트랩먼트 비율은 10–30 % 감소하였다. 특히, 90 분 LC 그라디언트 조건에서 펩타이드 식별이 6.5 %, 단백질 식별이 3.7 % 증가했으며, 고정밀(CV < 5 %) 영역에서는 전통 도구 대비 2‑3배 이상의 식별량을 기록했다.
또한, 엔트랩먼트 실험을 통해 FDR 제어가 강화된 것을 확인했으며, 독자적인 식별에 대해 XIC 형태와 신호‑대‑노이즈 비율을 시각적으로 검증함으로써 제로샷 모델이 실제 신호를 정확히 포착함을 입증했다. 정량 정확도 역시 다중 종 혼합 비율 실험에서 이론값과 높은 상관관계를 보였으며, 전반적인 정량 변동성도 기존 도구보다 낮았다.
이러한 결과는 DIA‑CLIP이 (1) 대규모 사전학습을 통한 범용 표현 학습, (2) 교차‑모달 대조학습을 통한 강인한 음성 샘플 구분, (3) 인코더‑디코더 기반 고차원 특징 추출이라는 세 축을 결합함으로써, 기존 DIA‑MS 파이프라인의 근본적인 한계를 극복한다는 점을 시사한다. 특히, 단일 세포 및 공간 단백질체와 같이 데이터가 희소하고 복잡한 응용 분야에서 사전학습된 모델을 바로 적용할 수 있다는 점은 향후 임상 및 생물학적 연구에 큰 파급효과를 가져올 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기