AI 기반 이스라엘 지하수 염도 예측 및 원인 분석
초록
본 연구는 이스라엘 전역의 지하수 염도를 클로라이드 농도로 정의하고, 기상·지질·인위적 변수 30여 종을 통합한 데이터셋을 활용해 Random Forest, XGBoost, 선형회귀, FFNN, LSTM, CNN 등 6가지 머신러닝 모델을 학습하였다. 변수 선택은 Recursive Feature Elimination 후 전역 민감도 분석(GSA)과 SHAP을 적용해 중요도를 평가했으며, Double Machine Learning(DML)으로 인과효과를 추정하였다. 결과는 강수·기온, 강·염수체 거리, 토양수분지수(TWI), 농업 면적, 처리된 폐수(TWW) 등이 염도 상승에 핵심 기여를 한다는 것을 보여준다. XAI와 DML을 결합한 프레임워크는 예측 정확도 향상과 동시에 정책적 해석 가능성을 제공한다.
상세 분석
이 논문은 지하수 염도 문제를 단순 예측을 넘어 인과관계까지 밝히려는 시도로, 데이터 전처리·특성 선택·모델링·해석의 전 과정을 체계화한 점이 돋보인다. 먼저, 저자는 기상(강수, 평균기온), 지질(강·염수체와의 거리, 토양수분지수(TWI), 해안선 거리), 인위적 요인(농업 면적, 처리폐수(TWW) 투입량) 등을 포함한 30여 개 변수를 수집하고, 연도별 시계열을 구축하였다. 물리적 변수는 정적, 기후·인위적 변수는 연도별 변동을 반영해 시계열 형태로 정제했으며, 결측값은 K‑NN 보간과 시계열 보간을 혼합해 보완하였다.
특성 선택 단계에서는 Recursive Feature Elimination(RFE)을 적용해 모델별 중요 변수를 12개 정도로 축소하고, 이후 Sobol‑Morris 기반 전역 민감도 분석(GSA)으로 변수 간 비선형 상호작용을 정량화하였다. SHAP(Shapley Additive Explanations) 값을 통해 각 변수의 기여도와 방향성을 시각화했으며, 특히 TWW는 지역에 따라 양의 혹은 음의 영향을 미치는 ‘컨텍스트 의존적’ 요인으로 파악되었다.
모델링에서는 전통적인 회귀(LR)와 앙상블(Random Forest, XGBoost)뿐 아니라 딥러닝 구조인 Feed‑Forward Neural Network(FFNN), Long Short‑Term Memory(LSTM), Convolutional Neural Network(CNN)를 비교하였다. 교차검증과 독립 테스트 셋을 이용한 성능 평가는 RMSE, MAE, R² 지표에서 XGBoost와 Random Forest가 가장 우수했으며, LSTM은 시계열 패턴을 포착하는 데 강점을 보였지만 과적합 위험이 있었다.
인과 분석은 Double Machine Learning(DML) 프레임워크를 채택해, 각 변수의 ‘정책적’ 효과를 추정하였다. DML은 첫 단계에서 고차원 공변량을 머신러닝으로 보정하고, 두 번째 단계에서 잔차를 이용해 변수별 인과계수를 도출한다. 결과는 강수 감소와 기온 상승이 직접적인 염도 상승 요인임을 확인했으며, TWW와 농업 면적은 지역별 차이가 큰 ‘조절 변수’로 작용한다는 점을 강조한다.
전반적으로 이 연구는 (1) 다중 스케일 데이터 통합, (2) RFE‑GSA‑SHAP 기반 변수 중요도 체계화, (3) DML을 통한 인과 추정이라는 세 축을 결합해, 기존 ‘블랙박스’ 예측 모델의 해석성을 크게 향상시켰다. 또한, 정책 입안자가 ‘어디에, 언제, 어떤 조치를 취해야 하는가’를 과학적으로 뒷받침할 수 있는 근거를 제공한다는 점에서 실용적 가치가 높다. 다만, 모델 학습에 사용된 데이터가 연도별 평균에 의존하는 부분이 있어 급격한 기후 이벤트(예: 가뭄, 폭우) 시의 비선형 반응을 충분히 포착하지 못할 가능성이 있다. 향후에는 고해상도 시계열(월·주 단위)과 공간적 상호작용을 고려한 그래프 신경망(GNN) 도입이 모델의 시공간 일반화를 강화할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기