이탈리아 2013‑2023 연간 대기질·기후 데이터베이스 GRINS AQCLIM 공개
초록
본 논문은 2013년부터 2023년까지 이탈리아 전역 744개 관측소에서 수집된 대기오염 물질과 기후 변수의 일일 통계치를 제공하는 GRINS AQCLIM 데이터셋을 소개한다. 원본은 EEA와 Copernicus ERA5/ERA5‑Land에서 확보했으며, 중복 파일 정리, 이상값 탐지, 결측치 보간, 시간·공간 통합 등 다단계 품질 관리 과정을 거쳐 Zenodo에 오픈 액세스로 공개한다.
상세 분석
GRINS AQCLIM 데이터셋은 이탈리아 내 700여 개 관측소 중 744개를 선정해 11년(2013‑2023) 동안 일일 최소·1사분위·평균·중위수·3사분위·최대값을 제공한다. 포함된 오염물질은 NO, NO₂, CO, NH₃, O₃, SO₂, PM₁₀, PM₂·₅이며, 기후 변수는 대기 경계층 높이, 식생지수, 상대 습도, 온도, 일사량, 강수량, 풍속·풍향 등이다. 데이터는 EEA의 Air Quality Portal에서 API·수동 다운로드로 20 000여 개 CSV 파일을 확보했으며, 파일 중복·시간 해상도 불일치·이상값 등 300여 건의 문제를 자동화 파이프라인(그림 2)으로 정제했다. 이상값 탐지는 EEA 제공 유효성·검증 플래그와 통계적 임계값(4σ·로그 변환·백분위수) 결합으로 수행했으며, 최종적으로 각 물질별 절대 임계값을 설정해 초과값을 결측치로 전환했다(예: PM₂·₅ > 10 000 µg/m³). 관측소 메타데이터는 좌표·분류(지역·배출원) 검증을 통해 중복·오분류 32개를 수정하였다. 시간 해상도는 대부분 시간당 측정값을 Kalman‑Smoother 기반 로컬 모델로 보간해 일일 통계로 변환했으며, 연속 5시간 이상 결측 시 일일값을 결측 처리했다. 기후 데이터는 ERA5와 고해상도 ERA5‑Land를 결합해 0.1°·0.1° 격자로 보간했으며, 해양 지역은 ERA5로 보완했다. 최종 데이터는 약 3 백만 행(744 관측소 × 4 017 일) 규모이며, Zenodo에 DOI와 함께 공개·버전 관리가 이루어진다. 데이터셋은 공공보건, 환경정책, 도시계획, 기후모델링 등 다학제 연구에 바로 활용 가능하도록 상세 문서와 GitHub 코드(https://github.com/GRINS‑Spoke0‑WP2/AQ‑EEA)를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기