소규모 데이터에 강한 분자 조각 그래프 변분 오토인코더
초록
본 논문은 분자 구조를 조각 단위로 분해하고, 그래프 메시지 패싱 네트워크를 이용해 두 개의 잠재 공간(조각 집합과 연결성)을 동시에 학습하는 변분 오토인코더(FraGVAE)를 제안한다. 작은 학습 데이터(수십 개)에서도 기존의 ECFP, Morgan Fingerprint, SMILES‑기반 모델보다 물리적 특성(용해도, 로그P) 예측 오차를 크게 낮추었으며, 유기 반도체 안정화 첨가제 탐색 실험에서는 69개의 학습 샘플만으로 테스트 분자의 92%를 정확히 예측하였다.
상세 분석
FraGVAE는 기존 그래프 오토인코더가 대규모 그래프에 대해 높은 파라미터 수와 과적합 위험을 안고 있는 문제를 해결하기 위해, 분자를 반경 1인 ECFP 조각(원자 중심)으로 최소 단위화하고 이를 순차적으로 재구성한다는 독창적인 전략을 채택한다. 조각 자체는 작은 서브그래프이므로 직접적인 라틴 공간( z₁ )에 매핑할 수 있으며, 조각 간 연결성은 별도의 라틴 공간( z₂ )에 인코딩한다. 두 잠재 공간을 결합해 디코더가 원래 분자를 복원하도록 학습함으로써, “조각‑연결성”이라는 이중 정보가 동시에 보존된다. 이는 작은 데이터셋에서도 구조‑특성 관계를 효율적으로 학습하게 해 주며, 특히 동일 조각을 공유하는 분자들이 잠재 공간에서 근접하게 배치되도록 만든다.
학습 과정에서 메시지 패싱 네트워크(MPNN)를 사용해 각 조각의 노드와 엣지에 대한 임베딩을 업데이트하고, 조각 선택·연결 순서를 정책 네트워크가 예측한다. 이렇게 하면 하나의 분자당 N!에 달하는 가능한 조합 대신, 조각 수 N에 비례하는 학습 샘플만으로 충분히 일반화할 수 있다. 또한, 조각이 한 번만 사용되도록 제약을 두어 디코더가 불필요한 중복을 피하고, 반경 1 조각만으로는 포착되지 않는 더 큰 화학적 환경을 반경 2·3 조각의 잠재 벡터(z₂)로 보완한다.
실험에서는 두 가지 베이스라인을 비교하였다. 첫째, 전통적인 ECFP(반경 2)와 Morgan Fingerprint, 둘째, SMILES‑기반 RNN/Transformer 모델이다. 소규모 데이터(≤100개)에서 FraGVAE는 용해도와 로그P 예측에서 평균 절대 오차(MAE)를 30~45% 정도 감소시켰으며, 특히 데이터가 30개 이하일 때 성능 격차가 가장 크게 나타났다. 실제 응용 사례로, 유기 반도체의 안정화 첨가제 후보 200여 종을 대상으로 69개의 실험 데이터만으로 학습한 뒤 테스트 셋(≈200개)에서 92% 정확도를 달성했다. 이는 “블랙박스 최적화” 상황에서 실험 비용을 최소화하면서도 신뢰할 만한 후보를 빠르게 도출할 수 있음을 의미한다.
한계점으로는 조각 분해 규칙이 현재는 반경 1 원자 중심에 국한되어 있어, 복잡한 고리 구조나 비대칭 결합을 완전히 포착하기 어렵다는 점이다. 또한, 잠재 공간 차원 수와 MPNN 레이어 깊이에 따라 과적합 위험이 존재하므로, 하이퍼파라미터 튜닝이 필수적이다. 향후 연구에서는 조각 크기와 형태를 가변적으로 조정하고, 클러스터 기반 조각(예: 기능성 그룹)과 결합해 더 풍부한 화학 정보를 학습하도록 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기