분자 서브구조 관계를 활용한 GoMS 모델
초록
GoMS는 분자를 독립적인 서브구조들의 집합이 아닌, 서브구조 간의 연결·공간적 관계를 그래프로 표현한다. 화학적으로 의미 있는 조각을 추출하고, 각 조각을 임베딩한 뒤, 토폴로지·화학·기하학적 특성을 포함한 다중 뷰 엣지로 연결된 서브구조 그래프에 Graph Transformer를 적용한다. 실험 결과, 특히 100원자 이상 대형 분자에서 ESAN 등 기존 방법보다 일관된 성능 향상을 보였으며, 동일한 서브구조 조합이라도 배열이 다른 분자를 구별할 수 있음을 이론적으로 증명하였다.
상세 분석
GoMS는 기존 서브그래프 기반 모델이 갖는 “bag‑of‑substructures” 한계를 극복하기 위해 서브구조 간 관계를 명시적으로 모델링한다는 점에서 혁신적이다. 먼저 RECAP·BRICS·RGB와 같은 화학 도메인 지식에 기반한 분해 규칙을 적용해 의미 있는 서브스트럭처를 추출한다. 이는 무작위 노드·엣지 삭제 방식보다 화학적 의미를 보존하며, 특히 큰 분자에서 기능성 그룹의 보존이 중요한 경우에 큰 이점을 제공한다. 추출된 서브구조는 독립적인 노드가 아니라, 원자 집합 Vᵢ와 결합 집합 Eᵢ를 가진 작은 그래프로 존재한다.
각 서브구조는 EGNN, PaiNN 등 3‑D equivariant GNN 백본을 통해 고정 차원의 임베딩 hₛᵢ로 변환된다. 여기서 EGNN을 선택한 이유는 회전·반사 등 물리적 변환에 대한 불변성을 보장해 3‑D 구조 정보를 손실 없이 전달할 수 있기 때문이다.
다음 단계에서는 서브구조들 간의 관계를 정의한다. 두 서브구조가 원자를 공유하거나 직접적인 화학 결합으로 연결될 경우에만 엣지가 생성되며, 엣지 특징은 (1) 토폴로지 e_graph — 공유 원자 비율을 비선형 스쿼시 함수 η로 정규화, (2) 화학 e_chem — ECFP‑4 기반 타니모토 유사도로 기능군 유사성을 측정, (3) 기하학 e_spatial — 중심 거리·방향·다이헤드랄 각 등 3‑D 정보를 포함한다. 이러한 다중 뷰 엣지는 서브구조 배열을 보존하는 “Arrangement‑Preserving Isomorphism” 개념과 직접 연결된다.
구조화된 서브구조 그래프 Gₛ는 Graph Transformer에 입력되며, 다중 헤드 어텐션을 통해 장거리 상호작용을 학습한다. 어텐션 스코어는 노드 임베딩과 엣지 특징을 동시에 고려하도록 설계돼, 단순한 인접성뿐 아니라 화학·기하학적 유사성까지 반영한다. L개의 Transformer 레이어를 거친 후, 노드 임베딩을 평균 풀링하고 MLP 헤드로 최종 물성값을 예측한다.
복잡도 측면에서 서브구조 수 k는 원자 수 n에 비해 1~2 order magnitude 작으므로 O(k²) 엣지 연산은 O(n²) 대비 현저히 가볍다. 이는 대형(>200 atoms) 분자에서도 실용적인 학습·추론 시간을 보장한다.
이론적으로는 동일한 서브구조 멀티셋을 갖지만 배열이 다른 두 분자 G₁, G₂에 대해, 서브구조 그래프의 관계 패턴 R이 다르면 GoMS는 서로 다른 임베딩을 생성한다는 정리(Arrangement‑Preserving Property)를 제시한다. 이는 ESAN과 같은 bag‑based 모델이 구별하지 못하는 입체 이성질체·콘포머 차이를 학습할 수 있음을 의미한다.
실험에서는 QM9·PCQM4M·MoleculeNet 등 공개 데이터셋을 사용했으며, 특히 100 atoms 이상, 200 atoms 이상 구간에서 MAE·ROC‑AUC 모두 기존 최첨단 모델보다 유의미하게 개선되었다. Ablation study를 통해 서브구조 분해 방식, 엣지 다중 뷰, Transformer 백본 각각이 성능에 미치는 기여도를 확인했으며, 화학 기반 분해와 기하학적 엣지 특징이 가장 큰 향상을 가져옴을 보고했다.
요약하면, GoMS는 서브구조 간 토폴로지·화학·기하학적 관계를 그래프 형태로 통합함으로써, 대규모 복합 분자의 물성을 정확히 예측하고, 배열 차이에 민감한 물성을 학습할 수 있는 확장 가능하고 해석 가능한 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기