데이터 효율적이고 해석 가능한 역재료 설계: 분리형 변분 오토인코더 활용
초록
본 논문은 고엔트로피 합금의 단일 상 형성을 목표로, 라벨이 있는 데이터와 없는 데이터를 동시에 활용하는 반지도 학습 기반의 분리형 변분 오토인코더(DVAE)를 제안한다. 목표 특성(단일 상 여부)을 다른 잠재 요인으로부터 분리(disentangle)함으로써 설계 공간을 직관적으로 탐색하고, SHAP을 이용한 사후 해석으로 모델의 결정 요인을 밝힌다. 실험 결과, 0.93 이상의 검증 정확도와 0.95 이상의 AUC를 달성했으며, 합금 조성을 재구성하는 데 평균 2.3%의 MAE만을 보였다.
상세 분석
이 연구는 기존의 무지도 생성 모델이 잠재 공간에서 목표 특성과 다른 물성들을 얽혀 있게 학습하는 문제점을 인식하고, 이를 해결하기 위해 반지도 학습 프레임워크를 도입하였다. 핵심은 ‘분리형 변분 오토인코더(DVAE)’이며, 생성 모델은 pθ(x|ϕ,z)·p(ϕ)·p(z) 형태의 공동 확률을 정의한다. 여기서 ϕ는 이진 목표 변수(단일 상=1, 다중 상=0)이고, z는 나머지 물성을 포괄하는 연속 잠재 변수이다. ϕ에 대해서는 베르누이 사전분포를, z에 대해서는 표준 정규분포를 가정함으로써 전문가 지식(예: 단일 상 비율)에 기반한 사전 조정이 가능하도록 설계했다.
인식 모델 qψ(ϕ,z|x)는 평균장 가정 하에 qψϕ(ϕ|f(x))·qψz(z|x,ϕ) 로 분해된다. 여기서 f(x)는 기존 연구에서 효과가 입증된 8개의 물리적 특징(원자 크기 차, 혼합 엔탈피·엔트로피 등)을 계산하는 고정 변환이며, 이를 입력으로 하는 신경망 ψϕ가 ϕ를 예측한다. 이렇게 함으로써 이미 알려진 물리적 인사이트를 모델에 직접 주입하고, 나머지 복잡한 비선형 관계는 z를 통해 학습한다.
학습 목적 함수는 비지도 ELBO 손실과 라벨이 있는 데이터에 대한 지도 손실을 γ라는 가중치로 결합한다. 이는 라벨이 부족한 상황에서도 재구성 능력을 유지하면서, 라벨이 있는 샘플에 대해서는 높은 예측 정확도를 확보하도록 만든다. 구현은 Pyro 기반의 확률 프로그래밍으로 수행했으며, 두 개의 100차원 은닉층을 가진 인코더·디코더 구조에 Adam 옵티마이저를 적용하였다. 데이터는 864개의 라벨링된 학습 샘플, 296개의 비라벨 샘플, 75개의 검증 샘플, 138개의 테스트 샘플로 나누어 5개의 랜덤 시드에 대해 평균·표준편차를 보고한다.
성능 평가에서는 ROC‑AUC가 0.95 이상, 테스트 정확도가 0.83±0.05 수준으로, 기존의 전통적인 머신러닝 기반 상 예측 모델과 동등하거나 우수한 결과를 보였다. 또한, 합금 조성을 재구성했을 때 평균 절대 오차(MAE)가 2.3%에 불과했으며, 이는 잠재 변수 z가 물성 정보를 충분히 보존하고 있음을 의미한다. 해석 측면에서는 SHAP을 이용해 8개의 엔지니어링 피처 각각의 기여도를 정량화했으며, 혼합 엔탈피·엔트로피와 원자 크기 차가 단일 상 형성 예측에 가장 큰 영향을 미치는 것으로 확인되었다.
이러한 설계는 (1) 라벨이 제한된 실험 데이터에서도 효율적으로 학습할 수 있는 데이터 효율성, (2) 목표 특성을 잠재 공간에서 명시적으로 분리함으로써 설계 탐색이 직관적이고 해석 가능한 인버스 디자인, (3) 사전 분포와 SHAP 기반 사후 해석을 결합한 다중 레이어 해석 가능성을 제공한다는 점에서 의미가 크다. 다만, 현재는 단일 목표(단일 상)만을 다루었으며, 다중 목표 최적화 시 잠재 변수 간 상호작용을 어떻게 모델링할지에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기