기후 변화에 강한 도시 교통 적응 경로 학습: 강화학습 기반 홍수 영향 분석
초록
본 논문은 장기 기후 시나리오와 홍수 위험을 통합한 평가 모델에 강화학습을 결합해, 2024‑2100년 기간 동안 코펜하겐 도심의 교통 인프라에 대한 적응 투자 경로를 자동으로 학습한다. 학습된 정책은 비용‑효과를 최적화하면서 직접·간접 교통 피해를 최소화하고, 기존 ‘무대응’·‘무작위’ 기준에 비해 높은 견고성을 보인다.
상세 분석
이 연구는 세 가지 핵심 요소를 결합한다. 첫째, 기후‑위험 연계 통합평가모델(IAM)을 구축해 RCP2.6, RCP4.5, RCP8.5 등 장기 강우 시나리오를 샘플링하고, SCALGO Live를 이용해 전역적인 플러드 깊이를 추정한다. 둘째, 도심 교통망을 OSM‑기반으로 재구성하고, 덴마크 교통조사 데이터를 활용해 84 000개의 OD 여행을 시뮬레이션한다. 플러드 깊이에 따라 속도‑감소·경로‑재설정·여행‑취소를 모델링함으로써 직접 인프라 손상(I), 여행 지연(D), 취소 비용(C) 세 가지 경제적 영향을 정량화한다. 셋째, 강화학습 에이전트를 그래프 신경망(GNN) 기반 정책 πθ 로 설계해 각 구역(노드)별로 8가지 저배수·투수성·저장 시설 중 하나를 선택하도록 한다. 행동 마스크를 통해 이미 설치된 조치는 재선택되지 않으며, 효과는 시간에 따라 감쇠한다. 보상 함수는 rₜ = −∑₍i₎(Iᵢ,ₜ + Dᵢ,ₜ + Cᵢ,ₜ + Aᵢ,ₜ + Mᵢ,ₜ) 로 정의돼 투자·유지비용(A, M)과 회피된 피해(I, D, C)를 동시에 최소화한다.
학습에는 PPO(Proximal Policy Optimization)를 사용했으며, 10개의 병렬 환경에서 4.5 백만 스텝까지 진행, 조기 종료 기준은 누적 보상의 수렴이다. 실험은 10개 시드 평균·표준편차로 보고, RCP4.5 조건에서 ‘무대응(NC)’과 ‘무작위(RND)’ 정책과 비교했다. 결과는 RL 정책이 연간 평균 비용을 약 15 % 감소시키고, 특히 고강도 폭우 시나리오에서 피해 회피율이 30 % 이상 높아지는 것으로 나타났다. 또한, 정책이 공간‑시간적으로 연계된 투자 시점을 자동으로 도출해, 초기에는 저비용 저배수 조치를, 중·후기에는 대용량 저장 탱크와 투수성 포장재를 배치하는 패턴을 보였다. 이는 전통적인 정적 최적화가 놓치기 쉬운 “시점‑위치‑조치”의 다중 상호작용을 포착한 것이다.
한계점으로는 플러드 모델이 균일 강우 가정을 사용해 실제 강우 지속시간·강도 변동성을 충분히 반영하지 못한다는 점, 그리고 비용·효과 파라미터가 문헌값에 의존해 지역별 민감도 분석이 부족하다는 점을 들 수 있다. 향후 연구에서는 고해상도 강우 시계열과 베이지안 불확실성 전파를 도입하고, 다목적 최적화(예: 탄소배출·사회형평)와 연계해 정책의 다중 가치 평가를 확대할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기