항체 기능 이해와 설계를 위한 대규모 지시 데이터셋 AFD‑Instruction 발표
초록
AFD‑Instruction은 항체 서열과 기능을 자연어로 연결한 43만 개 이상의 지시‑응답 쌍을 제공한다. 멀티‑에이전트 파이프라인으로 문헌에서 정보를 추출·검증하고, 자기‑질문(self‑questioning) 기법으로 이해·설계 태스크를 자동 생성한다. 일반 LLM을 이 데이터로 튜닝하면 항체 기능 분류·설명, CDR3 설계 등에서 기존 단순 서열‑기반 모델을 크게 능가한다. 데이터셋과 튜닝 방법은 항체 치료제 개발에 LLM을 활용할 수 있는 기반을 마련한다.
상세 분석
AFD‑Instruction은 항체 연구에서 가장 큰 병목인 “서열‑기능 정합성”을 해소하기 위해 설계된 최초의 대규모 지시형 데이터셋이다. 기존 단백질‑언어 모델(PLM)은 방대한 서열을 비지도 학습으로만 활용해 진화적 패턴을 포착하지만, 항체 특유의 친화도, 중화능, 항원 특이성 등 정밀 기능을 직접적으로 학습하지 못한다. 이를 보완하기 위해 저자들은 다음과 같은 핵심 전략을 채택했다.
-
데이터 수집·균형화: SabDab와 PDB에서 4,300여 개 항체를 추출하고, MMseqs2 기반 거리 행렬을 이용해 서열 다양성을 정량화·균형 샘플링하였다. 이는 특정 클론계열에 편중되지 않은 학습 데이터를 보장한다.
-
멀티‑에이전트 파이프라인: ‘Mr. Extractor’, ‘Dr. Mechanism’, ‘Prof. Function’이라는 세 단계 에이전트가 순차적으로 텍스트를 파싱, 구조·작용 메커니즘을 보강, 최종 기능 서술을 완성한다. 자동화된 규칙 기반 추출 뒤에 인간 전문가가 5% 샘플을 검증해 Cohen’s κ = 0.82라는 높은 일관성을 확보하였다.
-
자기‑질문(self‑questioning) 기반 지시 생성: 기존 서술‑응답 쌍을 시드 프롬프트로 활용해 LLM에게 다양한 질문을 생성하도록 하였다. 분류형(예: “이 항체는 IgE를 중화하는가?”)과 비분류형(예: “이 서열이 결합하는 부위와 메커니즘을 설명하라”)을 모두 포함해 모델이 다중 형태의 추론을 학습하도록 설계했다.
-
기능‑조건부 설계: 입력에
와 같은 태그로 목표 항원 서열과 원하는 기능을 명시하면, 모델이 전체 항체 혹은 CDR3만을 생성하도록 했다. 템플릿 기반 변환과 생물학적 plausibility 필터링을 결합해 비현실적인 디자인을 사전에 차단한다. -
품질 관리: 서열 무결성 검사, 중복 제거, 자동 의미 일관성 검사, 그리고 전문가 리뷰를 반복 적용해 데이터셋의 신뢰성을 유지한다.
실험에서는 Llama‑2‑7B, Qwen‑1.8B 등 여러 오픈‑소스 LLM을 AFD‑Instruction으로 튜닝한 뒤, (i) 항체 기능 분류 정확도, (ii) 기능 설명의 BLEU/ROUGE 점수, (iii) CDR3 설계 시 목표 친화도와 특이도 일치율을 평가하였다. 모든 모델이 베이스라인(서열‑전용 훈련) 대비 8~15%p의 성능 향상을 보였으며, 특히 “특정 항원에 대한 차단/중화”와 같은 복합 기능을 정확히 전달하는 능력이 크게 개선되었다.
한계점으로는 현재 데이터가 주로 인간·마우스 IgG1 항체에 국한돼 있어, 비정형 항체(예: 싱글 도메인, VHH)나 비정형 포맷에 대한 일반화가 미흡하다. 또한 기능 설명이 주로 문헌 요약에 의존하므로, 실험적 정량 데이터(친화도 K_D 등)와의 정밀 매핑은 아직 부족하다. 향후에는 고해상도 구조‑기능 매핑, 실험적 피드백 루프를 도입해 설계‑평가‑재학습 사이클을 구축할 필요가 있다.
전반적으로 AFD‑Instruction은 “언어 ↔ 항체” 양방향 인터페이스를 제공함으로써, LLM이 항체를 이해하고 인간이 제시하는 기능 목표에 따라 설계하도록 하는 새로운 패러다임을 제시한다. 이는 항체 치료제 초기 아이디에이션 단계에서 인공지능 기반 가속화를 가능하게 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기