테르펜 합성효소를 위한 TpsGPT 기반 탈신규 설계
초록
TpsGPT는 ProtGPT2를 테르펜 합성효소(TPS) 전용 79 천 개 서열로 미세조정한 생성 모델이다. 28 천 개의 후보를 생성 후 퍼플렉시티, 서열 유사도, EnzymeExplorer·CLEAN·InterPro 예측, ESMFold pLDDT, Foldseek TM‑score 등 7가지 필터링을 적용해 7개의 진정한 TPS 후보를 도출했으며, 실험적으로 2개가 효소 활성을 보였다. 모델 미세조정과 다단계 검증 파이프라인이 저비용으로 진화적으로 먼 기능성 효소를 탈신규 설계할 수 있음을 입증한다.
상세 분석
본 연구는 단백질 언어 모델(PLM)인 ProtGPT2를 테르펜 합성효소(TPS) 전용 데이터셋으로 미세조정(fine‑tuning)함으로써, 기존의 고비용·저속인 directed evolution이나 구조 기반 설계(RFdiffusion)와는 다른 ‘시퀀스‑기반 탈신규 설계’ 접근법을 제시한다. 초기 1 125개의 실험 검증된 TPS 서열을 씨앗으로 사용해 HMMER와 Pfam·SUPERFAMILY를 결합한 파이프라인으로 79 천 개의 동종 서열을 자동 채굴했으며, 30 % 이하의 상동성을 유지하도록 6개의 파티션으로 나누어 80 %를 학습, 20 %를 검증에 활용하였다.
미세조정은 파라미터 38.9 M인 ProtGPT2 tiny 모델을 단일 NVIDIA L4 GPU에서 수행했으며, 이는 원본 738 M 모델 대비 6배 빠른 추론 속도를 제공한다. 학습 후 28 천 개의 새로운 서열을 생성하고, 퍼플렉시티 상위 10 %를 우선 선별한 뒤 서열 유사도(maxID ≤ 60 %)를 적용해 진화적 거리를 확보한다. 기능적 필터링으로는 EnzymeExplorer의 TPS 스코어(≥ 0.7), CLEAN의 EC 예측, InterPro의 TPS 도메인 검증을 사용했으며, 구조적 필터링으로는 ESMFold 기반 pLDDT(≥ 70)와 Foldseek TM‑score(0.6–0.9) 기준을 적용했다.
이 다단계 파이프라인을 통과한 7개의 후보는 모두 높은 pLDDT(71–80)와 적절한 TM‑score를 보였으며, CLEAN이 할당한 EC 번호와 InterPro 도메인 역시 TPS 특성을 일관되게 나타냈다. 특히 TpsGPT1(49.7 % maxID)과 TpsGPT2(59.7 % maxID)는 실험적으로 Saccharomyces cerevisiae에 발현시켜 LC‑MS 분석을 수행했을 때, C₂₀H₃₆O₂(예: sclareol)와 일치하는 피크가 검출돼 실제 테르펜 합성 활성을 확인했다.
경제성 측면에서 전체 파이프라인은 GPU 비용 < 200 USD로 수행되었으며, 이는 전통적인 로봇‑보조 연속 진화(수십만 달러)와 비교해 획기적인 비용 절감 효과를 보여준다. 그러나 현재 7개 후보 중 2개만 활성을 확인했으며, 생성된 제품에 산소가 포함된 점은 전형적인 클래스 I·II TPS 메커니즘과 차이가 있음을 시사한다. 이는 모델이 구조적·시퀀스적 특성은 재현하지만, 촉매 부위의 미세한 전자·화학적 환경을 완전히 포착하지 못했을 가능성을 제기한다.
향후 연구에서는 (1) TPS 서브패밀리(예: 멘톨, 시네올 등)별로 조건부 생성 태그를 도입해 특정 테르펜을 목표로 하는 설계, (2) 촉매 부위에 대한 구조‑기능 데이터(활성 부위 변이, 금속 결합)와 결합한 멀티모달 학습, (3) 생성된 서열에 대한 고속 in vitro 스크리닝(마이크로플루이딕·자동화) 파이프라인 구축을 통해 성공률을 높일 수 있다. 또한, 본 방법론은 제한된 실험 데이터만을 가진 효소군(예: 리소자임, 폴리펩티드 합성효소)에도 적용 가능함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기