그래프 신경망으로 다중특이성 항체 기능 해석
초록
다중특이성 항체(msAb)의 활성을 예측하기 위해, 저자들은 비선형 상호작용을 포함한 대규모 합성 데이터셋을 생성하고, 도메인 연결성을 그래프로 표현하는 GNN 모델을 개발했다. 합성 데이터에서 학습한 모델은 실제 제한된 실험 데이터에 전이학습을 적용해 높은 예측 정확도를 보였으며, 트리스페시픽 T‑셀 엔게이저의 효능·독성 균형 최적화와 공통 라이트 체인 탐색 등에 활용 가능함을 시연했다.
상세 분석
본 논문은 다중특이성 항체(msAb)의 기능이 단순히 개별 도메인의 특성 합으로 설명되지 않으며, 도메인 간 물리적 연결과 위치에 의해 비선형적으로 결정된다는 점을 강조한다. 이를 해결하기 위해 두 단계의 프레임워크를 제시한다. 첫 번째는 ‘Synapse’라 명명된 합성 데이터 생성 파이프라인으로, OAS 기반 확률적 모델로 실제 항체 서열 분포를 모방한 도메인 서열을 샘플링하고, 각 도메인에 Ehrlich 함수를 적용해 비선형 적합도 점수를 부여한다. 이후 그래프 기반 읽기 함수가 인접 노드(1‑hop, 2‑hop)와의 상호작용을 고려해 전역 활성을 계산함으로써, 스테리오케미스트리, 친화도 게이팅, 차단 효과 등 실제 구조‑기능 관계를 추상화한다. 두 번째 단계는 Graph Isomorphism Network(GIN)를 이용한 그래프 회귀 모델이다. GIN은 1‑WL 테스트와 동등한 표현력을 가지며, 메시지 패싱을 통해 각 도메인의 특성과 이웃 연결 정보를 통합한다. 이를 MLP 기반의 연결 무시 모델과 비교했을 때, 단순 도메인 집합만으로는 구분할 수 없는 ‘2+1’, ‘3‑specific’ 등 복합 포맷에서 현저한 성능 차이가 나타난다. 특히 데이터 규모가 10⁴10⁵ 수준으로 증가할수록 GIN은 지속적으로 오차를 감소시키는 반면, MLP는 포맷 복잡도가 증가함에 따라 포화 현상을 보인다. 또, 포맷을 원‑핫 인코딩한 MLP는 제한된 포맷 내에서는 GIN에 근접하지만, 새로운 구조에 대한 일반화 능력은 떨어진다. 전이학습 실험에서는 대규모 합성 데이터(10⁵ 샘플)로 사전 학습한 GIN을 소량의 실제 트리스페시픽 T‑셀 엔게이저 데이터에 미세조정했을 때, 1050개의 샘플만으로도 MSE가 급격히 감소해 데이터가 희소한 상황에서도 실용적인 예측이 가능함을 보여준다. 최종적으로 저자들은 이 모델을 이용해 독성을 유발하는 원위 도메인 배치를 피하고, 효능을 극대화하는 포맷을 자동 탐색했으며, 공통 라이트 체인 설계에서도 최적 후보를 도출했다. 전체적으로, 도메인 서열과 그래프 토폴로지를 동시에 학습함으로써, 기존 시퀀스‑전용 모델이 놓치던 구조‑기능 비선형성을 포착하고, 제한된 실험 데이터 환경에서도 활용 가능한 예측 프레임워크를 제공한다는 점이 가장 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기