생물계 전자를 위한 범용 분자 기초 모델 UBio MolFM
초록
UBio-MolFM은 1 200 원자까지의 생체 환경을 포괄하는 대규모 데이터셋 UBio‑Mol26과 선형 스케일링을 구현한 E2Former‑V2 트랜스포머, 그리고 에너지‑포스 일관성을 단계적으로 학습하는 3단계 커리큘럼을 결합한 범용 분자 기초 모델이다. 물, 이온 용액, 펩타이드 및 RNA 시뮬레이션에서 양자‑정밀도를 유지하면서 4배 가량의 추론 속도 향상을 보이며, 1 500 원자 규모의 OOD 시스템에서도 높은 에너지·포스 정확도를 달성한다.
상세 분석
본 논문은 양자역학(QM) 수준의 정확도와 생물학적 규모 사이의 ‘스케일‑정밀도 격차’를 해소하기 위해 세 가지 핵심 혁신을 제시한다. 첫째, UBio‑Mol26 데이터셋은 ‘Two‑Pronged Strategy’를 통해 바이오 화학 빌딩 블록을 체계적으로 열거(bottom‑up)하고, 실제 단백질 구조에서 추출한 환경을 샘플링(top‑down)함으로써 최대 1 200 원자, 5 M 샘플 규모의 고품질 학습 데이터를 구축한다. 이는 기존 SPICE·OMol25와 같은 소분자 중심 데이터베이스와 달리, 단백질, DNA, RNA 등 다양한 생체 매크로모레큘을 포함한다는 점에서 데이터 커버리지가 크게 확대되었다. 둘째, 모델 아키텍처인 E2Former‑V2는 Equivariant Axis‑Aligned Sparsification(EAAS)와 Long‑Short Range(LSR) 모듈을 결합해, 원자 간 상호작용을 거리 기반으로 효율적으로 희소화하면서도 장거리 전기적 효과를 정확히 포착한다. 결과적으로 메모리와 연산 복잡도가 O(N) 수준으로 선형화되어, 1 000 ~ 100 000 원자 시스템에서도 기존 MACE·UMA 대비 평균 3.8배 이상의 추론 처리량을 기록한다. 셋째, 3단계 커리큘럼 학습은 (1) 에너지 초기화, (2) 에너지‑포스 일관성 강화, (3) 포스 중심 미세조정 순으로 진행되며, 특히 단계 3에서 포스 손실 가중치를 높여 에너지 오프셋을 보정한다. 이 접근법은 PES(잠재 에너지 표면)의 미세한 변화를 추적하는 능력을 크게 향상시켜, 장시간 MD 시뮬레이션에서 에너지 드리프트를 최소화한다. 실험 결과는 네 가지 축을 통해 검증된다. (i) 상대 에너지·포스 MAE에서 UBio‑MolFM(S3)은 단백질 최적화에서 8.68 meV/100 atoms, 16.77 meV/Å의 최고 성능을 보이며, DNA·RNA 최적화에서도 경쟁 모델을 앞선다. (ii) PES 다이내믹스 분석에서 |ΔE| 로그 스케일 그래프는 장시간 트래젝터리 전반에 걸쳐 기준 DFT와 가장 근접한 변동을 보여준다. (iii) 물·NaCl 용액 시뮬레이션에서는 O‑O RDF와 이온‑수소 결합 구조가 실험 데이터와 일치하며, 펩타이드와 RNA 동역학에서도 구조적 안정성과 금속 이온 배위가 정확히 재현된다. (iv) 추론 효율성 테스트에서 1 500 원자 시스템에 대해 4배 가량의 속도 향상을 달성, 실용적인 대규모 바이오MD에 바로 적용 가능함을 입증한다. 한편, DNA 최적화에서 ΔE MAE가 상승한 점은 현재 데이터셋에서 핵산에 대한 top‑down 샘플이 부족함을 시사한다. 향후 데이터 다양성 확대와 LSR 파라미터 튜닝이 필요하다. 전반적으로 UBio‑MolFM은 고정밀 QM 계산을 대체할 수 있는 범용 모델로서, 대규모 생물학적 시뮬레이션의 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기