강화학습 기반 생성 단백질 언어 모델을 이용한 고다양성 AAV 캡시드 설계
본 연구는 대규모 사전학습 단백질 언어 모델을 AAV2 캡시드 데이터에 미세조정하고, 강화학습으로 생존 가능성 및 서열 새로움을 동시에 보상함으로써, 기존 데이터와는 거리 먼 고기능성 캡시드 후보를 효율적으로 생성하는 프레임워크를 제시한다.
저자: Lucas Ferraz, Ana F. Rodrigues, Pedro Giesteira Cotovio
본 논문은 유전자 치료에 핵심적인 아데노‑관련 바이러스(AAV) 캡시드 설계 문제를 해결하기 위해, 최신 단백질 언어 모델(PLM)과 강화학습(RL)을 결합한 새로운 생성 프레임워크를 제안한다. 연구는 크게 네 부분으로 구성된다.
1. **배경 및 필요성**
AAV는 높은 안전성 및 장기 발현 특성으로 유전자 치료에 널리 사용되고 있지만, 면역원성 감소, 조직 특이성 향상, 제조 효율성 등 여러 성능 개선이 요구된다. 기존의 실험적 변이 탐색은 서열 공간이 방대해 전부를 검증하기 어렵다. 따라서 기능적 제약을 만족하면서도 기존 캡시드와는 다른 새로운 서열을 제시할 수 있는 계산적 접근이 필요하다.
2. **모델 설계**
- **사전학습 모델**: ProGen을 선택했으며, 이는 수억 개의 단백질 서열을 학습해 장거리 상호작용과 진화적 제약을 내재한다.
- **미세조정(Fine‑tuning)**: Brya et al. (2021)에서 제공한 AAV2 캡시드 생존성 데이터(양성 서열만)를 이용해 ProGen을 미세조정한다. 이 단계는 모델이 캡시드 특유의 ‘생존 가능성’ 시그니처를 학습하도록 한다.
- **강화학습 설계**: 두 개의 독립적인 보상 브랜치를 만든다.
* **새로움(다양성) 브랜치**: ESM2 임베딩을 고정하고, 생성 서열과 레퍼런스(자연 캡시드) 간 코사인 거리를 계산한다. 거리 퍼센타일을 0~1로 정규화하고, 1에 가까울수록 높은 보상을 부여한다. 최대 관측 새로움을 초과하면 파워‑법칙 스케일링을 적용해 탐색을 더욱 장려한다.
* **기능(생존) 브랜치**: ProtBERT‑T에 분류 헤드를 추가해, 미세조정된 바이올리티 라벨을 예측한다. 양성 확률이 높을수록 보상이 증가한다.
두 보상은 곱셈 형태로 결합돼, 새로우면서도 기능적인 서열만이 높은 총 보상을 받는다.
3. **실험 및 결과**
- **생성 실험**: 온도 t=0.8(보수적)와 t=1.2(다양성 강조) 두 조건에서 각각 100 000개의 서열을 생성했다.
- **비교 대상**: (①) 사전학습 모델(미세조정·RL 없이), (②) 미세조정만 수행한 모델, (③) 미세조정 후 RL 적용 모델.
- **고유 서열 및 바이올리티**: 사전학습 모델은 전부 비생존(0 % 양성)이며, 고유 서열은 거의 전부 새롭다. 미세조정 모델은 고유 서열 비율이 82 %~73 %이며, 98 %~91 %가 양성으로 분류된다. RL 모델은 고유 서열 수가 크게 감소했지만(0.8에서 330개, 1.2에서 9 403개), 거의 전부가 양성(100 %·99 %)이다. 이는 RL 보상이 기능을 유지하면서도 탐색 범위를 제한적으로 확장했음을 보여준다.
- **돌연변이 패턴**: 미세조정·RL 모두 캡시드 구조에서 핵심적인 567‑576 영역을 회피하는 변이 서명을 재현한다. RL 모델은 허용된 영역 외에서 변이 밀도를 높여, 기존 캡시드와는 다른 새로운 변이 조합을 적극적으로 생성한다. 사전학습 모델은 변이가 고르게 퍼져 구조적 일관성을 상실해 전부 비생존으로 판정된다.
- **후보 선정 전략**: 최종 후보는 (i) 바이올리티 예측 점수, (ii) 새로움 퍼센타일, (iii) 물리화학적 특성(예: 전하, 친수성, 2차 구조 예측) 등을 종합해 순위화한다. 이는 실험 검증 비용을 최소화하면서 가장 유망한 변이를 선택하도록 설계되었다.
4. **의의 및 향후 과제**
본 연구는 (1) 대규모 PLM을 기능적 데이터와 결합해 캡시드 설계에 특화된 사전 지식을 전달, (2) 강화학습 보상 설계가 ‘새로움’과 ‘기능’ 사이의 트레이드오프를 효과적으로 관리, (3) 고유 서열 수는 감소했지만 높은 기능 보장을 통해 실험 검증 효율을 크게 향상시킬 수 있음을 입증한다. 향후 과제로는 (가) 실제 바이오물리학적 실험을 통한 후보 검증, (나) 면역 회피성 및 조직 특이성 같은 다중 목표를 동시에 최적화하는 다목표 RL 설계, (다) 더 큰 규모의 AAV 변이 데이터와 결합해 모델 일반화를 검증하는 것이 있다.
결론적으로, 강화학습 기반 PLM 생성 프레임워크는 AAV 캡시드 디자인뿐 아니라 광범위한 단백질 엔지니어링 분야에서 고다양성·고기능성 서열을 탐색하는 강력한 도구가 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기