대규모 언어 모델 기반 자기재료 데이터베이스 NEMAD 구축 및 머신러닝 활용
초록
본 연구는 대형 언어 모델(LLM)을 활용해 67,573개의 실험 기반 자기재료 정보를 자동 추출·정제한 ‘Northeast Materials Database (NEMAD)’를 구축하고, 이를 토대로 자성 종류 분류와 전이 온도(Curie·Néel) 예측 머신러닝 모델을 개발하였다. 분류 모델은 90% 정확도를, 회귀 모델은 R² 0.87(Fe‑ferromagnet)·0.83(antiferromagnet) 및 MAE 56 K·38 K를 달성했으며, 고온 자성 후보 물질을 성공적으로 발굴하였다.
상세 분석
이 논문은 자기재료 연구에서 가장 오래된 병목 현상인 ‘고품질 데이터 부족’ 문제를 LLM 기반 자동화 파이프라인으로 해결하려는 시도이다. 먼저 Elsevier와 APS 등 주요 학술지의 XML, PDF, 스캔본을 다중 경로로 전처리한다. XML은 텍스트·테이블 파서를, 일반 PDF는 마크다운 변환 파서를, 이미지 기반 PDF·핸드북은 Google Gemini OCR을 이용해 텍스트와 표를 추출한다. 추출된 원시 텍스트는 GPT‑4o에 구조화 프롬프트를 제공해 JSON 형태의 레코드로 변환하고, 이후 중복 제거·단위 정규화·결측치 보정 과정을 거쳐 15개의 핵심 피처(화학식, Curie·Néel 온도, Curie‑Weiss 온도, 결정·격자 구조, 격자 파라미터, 공간군, 강제력, 자화, 자기 모멘트, 잔류자화, 감수성, DOI, 실험 여부)로 구성된 NEMAD를 완성한다.
데이터 품질 검증은 독립적인 Gemini 2.5 모델을 이용해 5,015건을 샘플링, 필드별 일치율을 평가했으며, 전체 평균 정확도가 94%에 달한다. 이는 기존 자동 추출 데이터베이스가 겪던 ‘표 인식 오류’와 ‘다중 문맥 해석 실패’를 크게 개선한 결과라 할 수 있다.
머신러닝 단계에서는 화학 조성 기반 피처 엔지니어링(원소 비율, 원소 특성 통계량 등)과 구조 피처(결정구조, 격자 파라미터, 공간군) 를 결합해 Random Forest와 XGBoost 기반 분류·회귀 모델을 학습시켰다. 분류 모델은 비자성(NM), 강자성(FM), 반강자성(AFM) 3 클래스를 0.90의 테스트 정확도로 구분했으며, 특히 AFM 클래스는 데이터 불균형으로 다소 낮은 재현율을 보였지만 전체적인 균형은 유지했다. 회귀 모델은 Curie 온도 예측에서 R² 0.87, MAE 56 K, Néel 온도 예측에서 R² 0.83, MAE 38 K를 기록했으며, 이는 기존 문헌에서 보고된 0.70~0.80 수준의 R²보다 현저히 우수하다.
모델 적용 단계에서는 Materials Project 데이터베이스에 존재하는 200,000여 개의 후보 물질에 대해 예측을 수행, Curie 온도 500 K 초과 FM 후보 25종, Néel 온도 100 K 초과 AFM 후보 13종을 선별했다. 특히 희귀금속(레어어스) 함량이 낮은 고온 FM 후보가 다수 포함돼, 차세대 영구자석 개발에 직접적인 인사이트를 제공한다.
기술적 강점으로는 (1) LLM을 활용한 다중 포맷 자동 추출 파이프라인 구축, (2) 실험 기반 데이터와 구조 정보를 동시에 포함한 고차원 피처 설계, (3) 검증된 고성능 분류·회귀 모델을 통한 실용적인 후보 물질 스크리닝이 있다. 한계점은 (가) 현재 데이터는 주로 실험 논문에 국한돼, 계산 데이터와의 통합이 미흡하고, (나) AFM 데이터가 상대적으로 적어 클래스 불균형 문제가 남아 있다. 향후 연구에서는 DFT·고성능 계산 데이터와의 하이브리드 학습, 그래프 신경망(GNN) 기반 구조-화학 결합 모델 도입, 그리고 활성 학습(active learning) 루프를 통한 데이터 증강이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기