초대형 화합물 라이브러리 탐색을 위한 진화 알고리즘 REvoLd
초록
REvoLd는 RosettaLigand 기반의 전유연 도킹을 이용해, 반응·기질 리스트로 정의된 메이크‑온‑디맨드(REAL) 라이브러리의 수십억 후보를 전부 열거하지 않고도 효율적으로 탐색하는 진화 알고리즘이다. 5개 표적에 대한 벤치마크에서 무작위 샘플링 대비 8691622배의 히트율 향상을 보였으며, 제한된 도킹 횟수(5만7만 건)만으로도 높은 스코어와 구조적 다양성을 확보한다.
상세 분석
본 논문은 초대형 메이크‑온‑디맨드(Enamine REAL) 라이브러리를 대상으로, 전통적인 전역 도킹이 요구하는 계산량을 회피하고자 진화 알고리즘을 설계하였다. 핵심 아이디어는(1) 라이브러리를 “반응”과 “기질”이라는 이산적 빌딩 블록으로 모델링하고, (2) 초기 인구를 무작위로 200개의 화합물로 구성한 뒤, 선택·교차·돌연변이 연산을 반복함으로써 화합물 공간을 탐색한다는 점이다. 선택 단계에서는 스코어가 높은 개체를 우선적으로 선택하되, 일정 비율의 저점수 개체도 보존해 탐색 다양성을 유지한다. 교차 연산은 두 개체의 반응 경로와 기질 조합을 교환해 새로운 스켈레톤을 생성하고, 돌연변이는(가) 기질 교체, (나) 반응 종류 교체, (다) 저유사도 기질로의 교체 등 세 가지 유형을 적용한다. 이러한 다중 변이 전략은 부분적인 구조는 유지하면서도 큰 변화를 유도해 지역 최소에 갇히는 위험을 감소시킨다.
프로토콜 최적화 과정에서 인구 규모 200, 세대 30, 상위 50개 개체를 다음 세대로 전달하는 파라미터가 최적으로 도출되었으며, 15세대 이후 스코어 향상이 완만해짐을 확인했다. 또한, 동일 파라미터라도 초기 무작위 시드가 달라지면 서로 다른 스코어 피크와 스켈레톤을 발견하므로, 여러 독립 실행을 권장한다.
벤치마크에서는 5개 표적(ABL1, EGFR 등)에 대해 20회씩 실행했으며, 각 실행당 49 000~76 000개의 고유 화합물을 도킹했다. 히트 정의를 스코어 임계값으로 설정했을 때, REvoLd는 무작위 샘플링 대비 최대 1622배(ABL1)까지 풍부화 계수를 기록했다. 특히, 최적 스코어가 알려진 활성 물질보다 높은 경우가 99건에 달하는 등, 스코어 함수의 편향성을 보완하는 효과도 나타났다.
다양성 측면에서는 Tanimoto 유사도가 1.0인 중복이 1.5~3%에 불과했으며, Bemis‑Murcko 스케폴드 분석에서도 다양한 골격이 지속적으로 생성되었다. 이는 REvoLd가 단일 스코어 최적화에 머무르지 않고, 구조적 다형성을 유지하면서도 높은 스코어를 달성함을 의미한다.
마지막으로, REvoLd는 Rosetta 소프트웨어에 플러그인 형태로 제공되며, 기존 RosettaLigand 파이프라인과 원활히 연동된다. 따라서 사용자는 기존 도킹 설정을 그대로 활용하면서, 진화 기반 샘플링을 추가로 적용할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기