SMILES Mamba 셀프슈퍼바이즈드 화합물 모델을 이용한 ADMET 예측 혁신
초록
SMILES‑Mamba는 대규모 비라벨 SMILES 문자열을 이용해 사전 학습한 뒤, 22개의 ADMET 데이터셋에 대해 소규모 라벨 데이터로 미세조정하는 두 단계 모델이다. 사전 학습은 ZINC 250K 샘플을 사용해 다음 토큰 예측으로 진행하고, Mamba 구조(Structured State Space Sequence)를 기반으로 긴 시퀀스 의존성을 효율적으로 학습한다. 미세조정 결과 22개 과제 중 14개에서 최고 성능을 기록했으며, 기존 그래프 신경망·Transformer 기반 모델들을 전반적으로 능가한다. 라벨 데이터 의존도를 크게 낮추면서도 예측 정확도를 향상시킨 점이 주요 기여이다.
상세 분석
SMILES‑Mamba는 화학 구조를 문자열 형태인 SMILES로 표현하고, 이를 순차 모델인 Mamba에 입력한다는 점에서 기존 그래프 기반 접근법과 차별화된다. Mamba는 Structured State Space Sequence(S4) 모델을 구현한 변형으로, 긴 시퀀스에서도 O(N) 연산 복잡도로 상태를 유지·업데이트한다. 이는 Transformer의 O(N²) 비용을 회피하면서도 장거리 의존성을 포착할 수 있어, 복잡한 분자 구조를 효과적으로 인코딩한다. 사전 학습 단계에서는 ZINC 데이터베이스에서 250 K개의 무라벨 SMILES를 사용해 다음 토큰 예측(autoregressive) 목표를 설정했으며, 이를 통해 화학 토큰 간의 통계적 관계와 구조적 패턴을 학습한다. 토큰 vocab은 원소 기호, 결합 기호, 괄호 등 기본 SMILES 문자로 구성돼, 화학적 의미를 손실 없이 보존한다.
미세조정 단계에서는 22개의 ADMET 데이터셋(흡수·분포·대사·배설·독성) 각각에 대해 별도 모델을 파인튜닝한다. 데이터셋은 이진 분류와 연속값 회귀를 모두 포함하며, 각 과제마다 샘플 수가 500~10 000 수준으로 다양하다. SMILES‑Mamba는 사전 학습된 가중치를 초기값으로 사용해, 라벨이 적은 상황에서도 빠르게 수렴한다. 실험 결과, 기존 Graph Neural Network(GCN, GAT), Transformer 기반 MolBERT, ChemBERTa 등과 비교했을 때 평균 ROC‑AUC·PR‑AUC·RMSE 등 주요 지표에서 우수한 성능을 보였으며, 특히 데이터가 희소한 CYP 억제·기질 예측 과제에서 두드러진 개선을 나타냈다.
또한, 모델 크기와 학습 효율성 측면에서도 Mamba는 GPU 메모리 사용량이 상대적으로 낮고, 학습 속도가 빠른 편이다. 이는 대규모 화합물 라이브러리를 사전 학습하고, 새로운 ADMET 과제에 빠르게 적용하려는 실무 환경에 적합하다. 한편, 저자들은 현재 모델과 코드를 공개 예정이며, 향후 멀티태스크 학습이나 화학 반응 예측 등으로 확장할 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기