나노입자 안정성 예측을 위한 층별 토폴로지 임베딩과 해석가능 머신러닝
초록
본 논문은 표면·중간·코어로 구분되는 토폴로지 기반 층별 기술자를 도입하고, 이를 고정 차원의 특징 벡터로 압축한다. 그래디언트 부스팅 결정트리와 랭킹 학습을 결합해 수백 개의 DFT 데이터만으로도 나노입자 구성의 에너지 순위를 정확히 예측한다. SHAP 분석을 통해 각 층의 화학·구조 요인이 안정성에 미치는 영향을 정량화하고, 활성학습에 활용 가능한 해석가능 모델을 제시한다.
상세 분석
이 연구는 복합 금속 나노입자의 에너지 지형을 효율적으로 탐색하기 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 ‘층별 토폴로지 임베딩’이다. 원자 간 거리 기준이 아닌 그래프 이론적 연결성을 이용해 표면 시드(조정도 낮은 원자)를 식별하고, BFS(너비 우선 탐색)로 각 원자의 토폴로지 거리 ℓᵢ를 정의한다. ℓᵢ에 따라 원자를 표면(ℓᵢ<L), 중간(ℓᵢ≈L), 코어(ℓᵢ≫L)로 자동 분류한다. 이 방식은 기하학적 절단값에 의존하지 않아 형태 변형이나 결함에 강인하며, 입자 크기·형태에 관계없이 고정된 차원의 특성 벡터를 생성한다. 각 층에 대해 평균 협조수, 결합 길이 평균·표준편차, 화학 조성, 원소 쌍 근접 확률, 토폴로지 사이클 분포, 화학·토폴로지 엔트로피 등 물리적으로 의미 있는 10여 개의 서브피처를 계산한다.
두 번째는 학습 목표를 절대 에너지 회귀가 아니라 ‘랭킹’으로 설정한 점이다. 실제 재료 탐색에서는 낮은 에너지 후보를 소수만 선별하면 되므로, 순위 정확도가 회귀 오차보다 더 실용적이다. 이를 위해 XGBoost 기반의 그래디언트 부스팅 결정트리를 사용했으며, 라이트GBM과 같은 트리 모델이 데이터가 적을 때 과적합을 방지하고 해석성을 유지한다는 점을 활용했다. 모델은 ‘pairwise ranking loss’를 최소화하도록 훈련돼, 훈련 셋이 200~300개 수준에서도 Top‑k 재현율이 90% 이상, Regret(예측 순위와 실제 순위 차이)도 급격히 감소한다.
해석가능성 측면에서는 SHAP(Shapley Additive exPlanations) 값을 각 피처와 층에 매핑했다. 결과는 표면 층에서 화학 불균일성(α_AB)과 낮은 협조수가 안정성에 크게 기여하고, 코어에서는 평균 결합 길이와 토폴로지 엔트로피가 주요 변수임을 보여준다. 또한 가중치 w_L을 조정해 특정 층에 강조를 두면 모델 성능이 어떻게 변하는지 정량적으로 평가할 수 있어, 물리적 가설 검증에 직접 활용 가능하다.
데이터 효율성은 실험적으로 검증되었다. 전체 데이터셋(≈1500구조) 중 10%만 사용해도 Pearson r≈0.97, Top‑5 재현율≈0.92를 달성했으며, 이는 기존 전역 피처(예: 평균 원자 거리) 기반 모델보다 2배 이상 적은 샘플로 동일 수준의 정확도를 얻은 것이다. 또한 활성학습 시뮬레이션에서 SHAP 기반 불확실도 추정과 층 가중치 조합을 이용해 새로운 후보를 선택하면, 5~10번의 반복만에 최저 에너지 구조에 근접하는 후보를 찾을 수 있었다.
이러한 접근은 (1) 물리적 의미를 보존한 저차원 피처 설계, (2) 데이터가 제한된 상황에서도 강건한 랭킹 학습, (3) SHAP을 통한 층별 메커니즘 해석이라는 세 축을 동시에 만족한다는 점에서 나노입자 설계와 고속 탐색에 큰 잠재력을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기