가우시안 화학 코드 실행 시간 예측을 위한 SEAGrid 데이터 기반 연구
초록
본 논문은 과학 게이트웨이 SEAGrid에서 수집한 가우시안(Gaussian) 계산 실행 로그를 활용해 런타임을 사전에 추정하는 모델을 구축한다. 입력 파라미터의 고차원·비선형 특성을 고려해 선형 회귀, 서포트 벡터 회귀, 랜덤 포레스트, Gradient Boosting 등 여러 회귀 기법을 비교 평가하고, 데이터 전처리와 특성 선택이 예측 정확도에 미치는 영향을 분석한다. 실험 결과는 트리 기반 모델이 가장 높은 R²와 낮은 평균 절대 오차를 보이며, 향후 딥러닝 기반 시계열 모델과 메타러닝 적용 가능성을 제시한다.
상세 분석
가우시안은 전자 구조 계산에서 가장 널리 사용되는 양자 화학 패키지이며, 입력 파일은 원자 좌표, 전자 밀도, 계산 방법, 기저 함수 집합 등 수십 개의 변수로 구성된다. 이러한 변수들은 서로 복합적인 상호작용을 일으키며, 실행 시간에 비선형적인 영향을 미친다. 논문은 먼저 SEAGrid 과학 게이트웨이에서 3년간 수집된 12,000건 이상의 실행 로그를 정제하고, 결측값과 이상치를 제거한 뒤, 주요 특성(예: 원자 수, 전자 수, 기저 함수 크기, 계산 단계 수, 메모리 요구량 등)을 추출한다. 특성 간 상관관계를 파악하기 위해 피어슨 상관계수와 변수 중요도 분석을 수행했으며, 다중공선성을 최소화하기 위해 주성분 분석(PCA)과 L1 정규화를 적용하였다.
다음으로 회귀 모델을 설계하였다. 기본선으로 다중 선형 회귀와 릿지 회귀를 적용했지만, 복잡한 비선형 관계를 포착하지 못해 낮은 예측 정확도를 보였다(R²≈0.45).) 이를 보완하기 위해 서포트 벡터 회귀(SVR)와 커널 트릭을 사용했으며, 하이퍼파라미터 튜닝을 통해 C값과 감마 값을 최적화했다. 그러나 SVR은 대규모 데이터셋에서 학습 시간이 급증하고, 모델 해석이 어려운 단점이 있었다.
트리 기반 모델인 랜덤 포레스트와 Gradient Boosting Machine(GBM)은 변수 간 비선형 상호작용을 자연스럽게 학습할 수 있었으며, 교차 검증 결과 R²가 각각 0.78, 0.81에 도달하고 평균 절대 오차(MAE)가 12% 이하로 감소하였다. 특히 GBM은 특성 중요도 순위에서 원자 수, 기저 함수 크기, 계산 단계 수가 상위 3위에 올랐으며, 이는 물리적 직관과 일치한다. 모델 과적합을 방지하기 위해 조기 종료와 학습률 감소 기법을 적용했으며, 테스트 셋에 대한 일반화 성능도 안정적이었다.
또한 논문은 모델 해석을 위해 SHAP(Shapley Additive Explanations) 값을 계산하여 개별 실행에 대한 기여도를 시각화하였다. 이를 통해 사용자는 특정 입력 파라미터가 런타임에 미치는 영향을 직관적으로 파악할 수 있다. 마지막으로 저자들은 현재 모델이 정적 입력 특성만을 사용한다는 한계를 지적하고, 실행 중 수집되는 CPU 사용률, I/O 대기 시간 등 동적 메트릭을 포함한 하이브리드 모델 개발 방향을 제시한다. 향후 딥러닝 기반 시계열 예측(LSTM, Transformer)과 메타러닝을 결합해 다양한 화학 연구 워크플로우에 적용 가능한 범용 런타임 추정 프레임워크를 구축하고자 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기