다중아키텍처 기반 TCR 디노 디자인 프레임워크 LSMTCR
LSMTCR은 에피토프 정보를 조건으로 하여 전체 길이의 α/β 체인을 동시에 설계하는 새로운 모델이다. 시간‑조건부 BERT 인코더가 에피토프를 표현하고, 조건부 GPT 디코더가 CDR3α·β를 각각 생성한다. 마지막에 유전자‑인식 Transformer가 V·J 유전자 선택을 예측해 면역유전적 일관성을 부여한다. 다양한 공개 데이터셋에서 기존 방법보다 높
초록
LSMTCR은 에피토프 정보를 조건으로 하여 전체 길이의 α/β 체인을 동시에 설계하는 새로운 모델이다. 시간‑조건부 BERT 인코더가 에피토프를 표현하고, 조건부 GPT 디코더가 CDR3α·β를 각각 생성한다. 마지막에 유전자‑인식 Transformer가 V·J 유전자 선택을 예측해 면역유전적 일관성을 부여한다. 다양한 공개 데이터셋에서 기존 방법보다 높은 결합 예측 점수와 길이·위치 문법 재현성을 보였으며, 온도 파라미터를 통해 다양성을 조절할 수 있다.
상세 요약
LSMTCR은 TCR 설계 문제를 “특이성 학습”과 “제약 학습”으로 명확히 분리함으로써 기존 모델이 직면한 두 가지 주요 장애물을 극복한다. 첫 번째는 에피토프‑특이적 결합을 포착하는 어려움이다. 이를 위해 논문은 diffusion‑enhanced BERT 인코더를 도입했는데, 이는 에피토프 서열에 시간(step) 정보를 추가해 다중 스케일의 표현을 학습한다. 시간‑조건부 학습은 에피토프의 구조적·화학적 변이를 연속적인 잠재공간에 매핑함으로써, 이후 디코더가 에피토프와 직접적인 교차‑모달 컨디션을 받을 수 있게 한다.
두 번째는 TCR의 유전적 제약, 즉 V·J 유전자 재배열 규칙과 CDR3 길이·위치 분포를 반영하는 것이다. LSMTCR은 이를 해결하기 위해 두 단계의 GPT 디코더와 별도의 Gene‑aware Transformer를 사용한다. GPT 디코더는 먼저 CDR3β를 대규모 비지도 사전학습(pre‑training)한 뒤, 동일한 아키텍처를 CDR3α에 전이학습(transfer learning)한다. 이렇게 하면 β 체인에서 학습된 풍부한 변이 정보를 α 체인에도 효과적으로 전달할 수 있다. 디코더는 온도 파라미터 τ를 통해 샘플링 다양성을 조절한다; 낮은 τ는 고신뢰도(높은 결합 점수) 시퀀스를, 높은 τ는 더 넓은 탐색 공간을 제공한다.
Gene‑aware Transformer는 V와 J 유전자의 사용 빈도와 조합 규칙을 학습한다. 입력으로는 앞서 생성된 CDR3 서열과 에피토프 임베딩을 제공하고, 출력은 V·J 선택 확률 분포이다. 이 단계는 전체 α/β 서열을 완전한 형태로 조립하면서도, 실제 면역유전학적 제약을 위배하지 않도록 보장한다.
성능 평가에서는 GLIPH, TEP, MIRA, McPAS, 그리고 저자 자체 구축 데이터셋을 사용했다. LSMTCR은 대부분의 데이터셋에서 기존 베이스라인(예: DeepTCR, TCRGAN 등)보다 높은 pBinding(예측 결합 점수)을 기록했으며, 특히 CDR3 길이와 아미노산 위치 분포를 정량적으로 재현하는 지표에서 우수했다. 또한, 온도 조절에 따른 다양성 메트릭(KL‑divergence, edit distance)에서도 기대한 대로 변화를 보이며, 실험적 설계 단계에서 탐색‑활용 균형을 맞출 수 있음을 입증했다.
α‑체인 전이학습 실험에서는 β‑체인에서 사전학습된 파라미터를 그대로 가져와 미세조정(fine‑tuning)했을 때, 결합 예측 정확도와 길이 현실성(length realism)이 크게 향상되었다. 이는 β‑체인 데이터가 풍부하지만 α‑체인 데이터가 상대적으로 부족한 현실적인 상황에 매우 유용한 전략이다.
전체 TCR 조립 단계에서는 생성된 CDR3와 실제 레퍼런스 TCR 사이의 k‑mer 스펙트럼 유사도와 편집 거리(edit distance)를 측정했으며, 두 지표 모두 기존 방법보다 낮은 값을 보였다. 마지막으로, 에피토프와 전체 TCR을 동시에 모델링한 경우(pTM/ipTM)에는 단일 체인만 모델링했을 때보다 구조적 일관성이 크게 향상되었다. 이는 LSMTCR이 실제 단백질 구조 예측 파이프라인에 바로 적용 가능함을 시사한다.
요약하면, LSMTCR은 (1) 에피토프‑조건부 고차원 표현, (2) 체인‑특이적 변이 생성, (3) 유전자‑제약 통합이라는 세 축을 결합해, 전통적인 TCR 디자인의 한계를 뛰어넘는 확장 가능하고 실용적인 프레임워크를 제공한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...