날씨·계절성을 고려한 네트워크 수준 여행시간 예측 모델링
본 연구는 워싱턴 DC 지역 6년간 수집된 5만 건 이상의 여행시간 지수(TTI)와 기상·계절 데이터를 활용해, 다양한 머신러닝 회귀 모델을 비교·평가한다. 특성 선택에 RFE를 적용하고, 다항 특성까지 고려한 결과, Ridge Regression(α=1.0)이 0.9025의 R² 점수로 가장 높은 예측 정확도를 보였으며, 단기·장기 모두에서 우수한 성능을 나타냈다.
저자: Yufei Ai, Yao Yu, Wenjing Pu
본 논문은 네트워크 수준의 여행시간 지수(TTI)를 예측하기 위해 기상·계절성 효과를 포함한 머신러닝 기반 프레임워크를 제시한다. 연구 배경으로는 교통 정보의 정확한 예측이 여행자와 물류 운영자에게 큰 가치를 제공한다는 점을 들며, 기존 연구가 실시간 GPS 기반, 단일 구간 예측, 혹은 파라메트릭·비파라메트릭 접근에 국한돼 있었다는 점을 지적한다.
데이터는 워싱턴 DC 지역에서 2010년 1월 1일부터 2016년 6월 26일까지 수집된 56,791개의 시간별 TTI와 일일 기상 지수(강수량, 눈, 온도, 풍향·풍속 등)로 구성된다. 변수는 총 93개이며, 여기에는 시간·날짜(시, 일, 요일, 월, 연도), 34개의 기상 변수, 11개의 과거 TTI, 그리고 원-핫 인코딩된 파생 변수들이 포함된다.
연구는 먼저 기술통계 분석을 수행한다. 일일 평균 TTI는 눈이 내린 날에 급격히 상승하고, 강수일에도 무강수일보다 다소 높은 경향을 보인다. 월별 평균에서는 6월이 최고값을 기록했으며, 요일별로는 수요일이 피크, 토요일이 최저값을 나타낸다. 시간대별로는 08:00와 17:00에 급증하는 전형적인 출퇴근 러시가 확인된다. 이러한 패턴은 모델링 단계에서 중요한 피처 엔지니어링 요소가 된다.
다음으로 피처 선택을 위해 Recursive Feature Elimination(RFE) 기법을 적용한다. 선형 회귀를 외부 추정기로 사용해 1~24개의 피처 서브셋을 탐색하고, 교차검증 점수를 기준으로 최적 피처 수를 결정한다. 이 과정에서 불필요하거나 중복된 변수를 제거함으로써 모델 복잡도를 크게 낮추고 학습 효율을 향상시킨다.
모델 비교에서는 Scikit‑learn 라이브러리의 다섯 가지 회귀 모델을 사용한다: Linear Regression, Lasso, Ridge, Support Vector Regression(SVR), Decision Tree Regressor. 각 모델은 하이퍼파라미터 튜닝(예: Ridge α, SVR C·ε, Decision Tree max_depth)과 다항 피처(차수 1~5)를 조합해 5‑fold 교차검증(k=5)과 10회 반복 샘플링(각 1,000개)으로 성능을 평가한다.
성능 결과는 다음과 같다. Ridge Regression(α=1.0)이 24개의 피처를 사용해 R²=0.9025로 가장 높은 점수를 기록했으며, Linear Regression(0.8839), SVR(C=2.8, ε=0.1, 10개 피처, R²=0.8322), Decision Tree(max_depth=2.2, 21개 피처, R²=0.6824), Lasso(α=0.1, 19개 피처, R²=0.4265) 순이다. Ridge 모델이 다른 모델에 비해 과적합 위험이 낮고, 규제를 통해 다중공선성을 완화하면서도 높은 설명력을 유지한다는 점이 강조된다.
논문은 또한 모델이 단기(1시간 이내)와 장기(수일~수주) 예측 모두에서 일관된 성능을 보였다고 주장한다. 이는 피처 선택과 규제 회귀가 시간적 상관성을 효과적으로 포착했기 때문이다.
한계점으로는 전체 데이터를 1,000개씩 10회만 샘플링했기 때문에 극단적인 날씨 상황이나 특수 이벤트(대규모 행사, 도로 공사 등)에 대한 일반화가 제한될 수 있다. 또한, 기상 데이터가 일일 평균값으로 제공돼 시간대별 강수 강도 변동을 충분히 반영하지 못한다는 점이 있다.
결론적으로, 본 연구는 (1) 기상·계절성을 포함한 풍부한 피처 세트를 구축하고, (2) RFE 기반 피처 선택으로 차원 축소를 수행하며, (3) Ridge Regression을 통해 높은 예측 정확도를 달성하는 통합 프레임워크를 제시한다. 향후 연구에서는 고해상도 기상·교통 센서 데이터와 딥러닝 기반 시계열 모델을 결합해 예측 성능을 더욱 향상시키고, 실시간 적용 가능성을 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기