다양한 물질 시스템을 위한 효율적인 머신러닝 인터아톰 포텐셜 활성 학습 전략
초록
본 연구는 Materials Project와 OQMD 데이터베이스에서 추출한 네 가지 물질(탄소, 실리콘, 철, TiO₂)을 대상으로, 신경망 앙상블과 Query‑by‑Committee 기반 불확실성 추정기를 결합한 활성 학습 프레임워크를 제안한다. 무작위, 불확실성 기반, 다양성 기반(k‑means 클러스터링), 하이브리드 네 가지 샘플링 전략을 비교한 결과, 다양성 기반 샘플링이 특히 복합 Ti‑O 시스템에서 10.9%의 MAE 감소를 보이며 가장 효율적인 것으로 나타났다. 전체 파이프라인은 Google Colab에서 4시간 이내, 8 GB 이하 메모리로 실행 가능하며, 오픈소스로 공개되어 자원 제한 환경에서도 MLIP 개발을 democratize한다.
상세 분석
본 논문은 활성 학습(Active Learning, AL)과 머신러닝 인터아톰 포텐셜(MLIP)의 결합을 통해 첫 원리 계산 비용을 크게 절감하고자 하는 실용적 목표를 갖는다. 데이터 수집 단계에서 MP와 OQMD API를 이용해 각 물질당 최대 600개의 구조를 확보하고, 원자 수 2~50, 형성 에너지·밴드갭 결측치 제거, 에너지 차이 1 meV 이하 중복 제거 등 엄격한 전처리를 수행하였다. 이렇게 구성된 풀(pool) 데이터를 80/20 비율로 학습/테스트 셋으로 분할하였다.
특징 설계는 17차원 벡터(조성 통계 8개, 물성 기반 9개)로, 원소 원자 번호·질량·전기음성도 등 기본적인 조성 정보를 포함하면서, 형성 에너지·밴드갭·밀도·안정성 지표 등 물성 정보를 함께 활용한다. 표준화는 각 실험마다 독립적으로 수행해 데이터 누수를 방지하였다.
모델 아키텍처는 5개의 피드포워드 신경망으로 구성된 앙상블이며, 각 네트워크는 입력 17, 은닉층 2×128(ReLU), 출력 1(형성 에너지/원자) 구조를 가진다. Adam 옵티마이저(lr = 1e‑3)와 MSE 손실을 사용한다. Query‑by‑Committee 방식으로 각 샘플에 대한 예측 평균과 분산을 계산하고, 이를 불확실성 척도로 활용한다.
활성 학습 루프는 초기 라벨 30개에서 시작해 6번 반복, 매 반복마다 15개의 샘플을 추가해 최종 105개의 라벨을 확보한다. 네 가지 샘플링 전략은 다음과 같다. ① 무작위(Random) – 베이스라인. ② 불확실성(Uncertainty) – 앙상블 분산 상위 15개 선택. ③ 다양성(Diversity) – 비라벨 풀에 대해 k‑means(k = 15) 클러스터링을 수행하고 각 클러스터 중심에 가장 가까운 구조를 선택. ④ 하이브리드(Hybrid) – 불확실성(α = 0.6)과 다양성(1‑α) 점수를 정규화 후 가중합 최대화.
평가 지표는 MAE(eV/atom)와 R²이며, 각 실험을 5개의 랜덤 시드로 반복해 평균±표준편차를 보고한다. 통계적 유의성 검증을 위해 paired t‑test(p < 0.05)을 적용하였다.
결과적으로, 다양성 기반 샘플링은 모든 시스템에서 최소 혹은 최우수 MAE를 기록했으며, 특히 Ti‑O 시스템에서 0.813 eV/atom (±0.035)으로 무작위(0.912 eV/atom) 대비 10.9% 개선(p = 0.008)을 보였다. 실리콘은 구조적 단순성으로 인해 전략 간 차이가 미미했으며, 철과 탄소에서는 다양성 샘플링이 무작위 대비 각각 4.3%와 0.4% 정도의 개선을 나타냈다. 학습 곡선 분석은 라벨 수가 증가함에 따라 모든 전략이 수렴하지만, 복합 시스템일수록 다양성 전략이 초기 단계부터 꾸준히 우위를 유지함을 보여준다.
교차 데이터베이스 검증에서는 MP→OQMD 전이 시 MAE 0.289 eV/atom, OQMD→MP 전이 시 0.315 eV/atom으로 비대칭이 관찰되었으며, 다양성 샘플링이 도메인 이동에 대한 강인성을 높이는 효과가 확인되었다.
실용성 측면에서 전체 파이프라인은 Google Colab 환경에서 4시간 이내, 메모리 8 GB 이하로 실행 가능하도록 최적화되었으며, 코드와 설정 파일을 GitHub에 공개함으로써 자원 제한 연구자도 손쉽게 재현·확장할 수 있다.
한계점으로는 17차원 제한된 피처셋이 복잡한 화학적 상호작용을 완전히 포착하지 못할 가능성, k‑means 클러스터링의 초기화 민감도, 그리고 현재는 형성 에너지 예측에만 초점을 맞춘 점을 들 수 있다. 향후 연구에서는 E(3)‑equivariant 그래프 신경망과 같은 대칭 인식 모델을 결합하고, 동적 α 조정 하이브리드 전략을 도입해 불확실성과 다양성 사이의 탐색‑활용 균형을 자동화하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기