도시 대기질 예측을 위한 데이터 기반 NARX 모델
초록
본 논문은 런던의 다중 관측소 데이터를 활용해, 환경·기상 변수와 결합한 NARX(Non‑linear Autoregressive with Exogenous inputs) 신경망을 이용해 실시간 AQI를 고정밀로 예측하는 프레임워크를 제안한다. 기존 머신러닝 기법과 비교해 RMSE, MAPE, Band Accuracy 등에서 우수한 성능을 보이며, 데이터 결측 및 관측소 간 간격 문제를 효과적으로 완화한다.
상세 분석
이 연구는 도시 대기오염 예측에서 가장 큰 난제 중 하나인 관측소의 공간적 희소성과 시간적 결측을 데이터‑드리븐 방식으로 해결하고자 한다. 먼저, 영국 환경청(DEFRA)의 AURN 네트워크와 기상청 데이터를 통합해 1시간 간격의 다변량 시계열을 구축하였다. 데이터 전처리 단계에서는 결측값을 선형 보간과 K‑NN 기반 보간으로 보완하고, 각 변수(NO₂, PM₂.₅, PM₁₀, SO₂, CO, O₃ 등)와 기상 요소(온도, 습도, 풍속, 풍향, 기압)를 정규화하였다.
핵심 모델은 NARX 구조를 채택했는데, 이는 과거 AQI(또는 개별 오염물질 농도)와 외생 입력(기상 변수)을 동시에 고려해 비선형 동적 관계를 학습한다는 점에서 기존의 단순 회귀나 순환 신경망(RNN)보다 표현력이 뛰어나다. 저자들은 두 가지 학습 전략을 비교하였다. 첫 번째는 과거 AQI와 기상 데이터를 직접 NARX에 입력해 AQI를 바로 예측하는 방식이며, 두 번째는 개별 오염물질 농도를 먼저 예측한 뒤, EPA 기준에 따라 AQI를 계산하는 이중 단계 방식이다. 두 모델 모두 3‑layer 은닉층(노드 수 64‑32‑16)과 tanh 활성화를 사용했으며, Adam 옵티마이저와 0.001의 학습률로 200 epoch까지 조기 종료(Early Stopping)를 적용했다.
성능 평가는 RMSE, MAPE, 그리고 Band Accuracy(예측값이 실제값과 동일한 AQI 등급에 속하는 비율) 세 가지 지표로 수행되었다. 실험 결과, NARX‑Direct 모델이 RMSE 4.2, MAPE 6.8 %를 기록했으며, 기존 SVM, Random Forest, LSTM 대비 각각 12‑15 %·10‑13 %·8‑11 %의 개선을 보였다. 특히, 데이터가 희소한 외곽 지역에서는 NARX‑Two‑Stage 모델이 오염물질 별 예측 정확도가 높아 최종 AQI 계산 시 오류 누적을 억제하는 효과가 있었다.
또한, 저자들은 모델의 해석 가능성을 위해 입력 변수 중요도를 SHAP(Shapley Additive exPlanations) 기법으로 분석하였다. 결과는 기온·풍속·전날 NO₂ 농도가 AQI 변동에 가장 큰 기여를 한다는 것을 보여, 정책 입안자가 교통 제한이나 기상 기반 경보 시스템을 설계할 때 실질적인 인사이트를 제공한다.
한계점으로는 데이터가 1시간 간격으로 제한돼 있어 초단기(5‑10분) 예측에는 적용이 어려우며, 모델이 특정 오염물질(예: 오존) 급격한 비선형 변동을 완전히 포착하지 못한다는 점을 언급한다. 향후 연구에서는 멀티‑스케일 시계열 모델과 그래프 신경망(GNN)을 결합해 공간적 상관관계를 강화하고, 실시간 스트리밍 데이터 파이프라인을 구축해 실시간 경보 시스템에 직접 연동하는 방안을 제시한다.
전반적으로, 이 논문은 NARX 기반 시계열 예측이 도시 대기질 모니터링에 있어 데이터 결핍 문제를 보완하고, 기존 머신러닝 대비 실용적인 정확도 향상을 달성한다는 점에서 학술적·실무적 기여가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기