데이터 기반 역불확실성 정량화: CVD 반응기 모델링 적용

데이터 기반 역불확실성 정량화: CVD 반응기 모델링 적용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 생산 현장 데이터를 활용해 화학 기상 증착(CVD) 공정의 파라미터를 역으로 추정하는 베이지안 프레임워크를 제시한다. XGBoost 기반 서러게이트 모델을 구축하고, 정보‑이론적 모델 선택으로 사전분포를 정의한 뒤, 가중치가 부여된 Approximate Bayesian Computation(ABC)으로 사후분포를 얻는다. 또한 문서 임베딩을 이용한 군집화로 동질적인 생산군을 구분하고, 실험 데이터로 검증하였다.

상세 분석

이 연구는 산업 현장에서 흔히 마주치는 고차원·혼합형 파라미터 공간을 효율적으로 탐색하기 위해 세 가지 핵심 기술을 결합한다. 첫째, XGBoost 회귀기를 서러게이트 모델로 사용함으로써 연속형, 정수형, 이진형 및 인코딩된 범주형 변수를 별도 전처리 없이 동시에 다룰 수 있다. 트리 기반 모델의 특성상 변수 중요도(total_gain)를 바로 추출해 차원 축소와 핵심 파라미터 식별에 활용한다. 둘째, 사전분포 설정 단계에서 AIC 기반 정보‑이론적 모델 선택을 적용한다. 각 파라미터에 대해 후보 확률분포(정규, 로그정규, 감마 등)를 피팅하고 AIC를 최소화하는 모델을 선택함으로써 데이터‑구동형 사전 정보를 확보한다. 선택된 사전분포의 하이퍼파라미터는 MCMC 샘플링을 통해 후방 추정한다. 셋째, 비선형·비미분 가능한 서러게이트 모델의 경우 전통적인 likelihood 계산이 불가능하므로, 가중치가 부여된 Approximate Bayesian Computation(ABC)을 도입한다. 요약통계(평균, 표준편차, 중앙값, 사분위수)를 이용해 시뮬레이션 데이터와 관측 데이터를 거리 함수로 비교하고, 커널(예: 가우시안) 기반 가중치를 모든 샘플에 할당한다. 이 방식은 단순 거부 ABC가 가진 샘플 낭비 문제를 해결하고, 유효 샘플 크기(ESS)를 통해 사후분포의 집중도를 정량화한다. 또한, 범주형 파라미터의 복잡한 기하학적 정보를 다루기 위해 Doc2Vec 임베딩을 적용, 연속 벡터 공간에서 유사도 기반 군집화를 수행한다. 이를 통해 생산 라인별·배치별로 동질적인 군집을 정의하고, 군집 내부에서만 파라미터 추정을 수행함으로써 노이즈와 공정 변동성을 효과적으로 억제한다. 실험 결과, 서러게이트 모델의 예측 RMSE가 5 % 이하로 유지되었으며, ABC 사후분포는 실제 측정값과 높은 일치도를 보였다. 그러나 XGBoost 자체가 블랙박스 특성을 갖고 있어 해석 가능성에 한계가 존재하고, 요약통계 선택에 따라 사후분포의 정확도가 달라질 수 있다는 점은 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기