작업구역 대형차 사고 심각도 예측 모델링 전략

작업구역 대형차 사고 심각도 예측 모델링 전략
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 사우스캐롤라이나 주 작업구역에서 2014~2018년 사이 발생한 대형차(트럭·버스·밴) 사고 데이터를 활용해, 저심각도(LS)와 고심각도(HS) 사고 간의 4:1 불균형을 고려한 다양한 통계·머신러닝·딥러닝 모델의 예측 성능을 비교한다. 특징 선택 기법 중 차별적 상호정보(DMI)가 HS 예측에 가장 효과적이며, 데이터 균형화 기법인 NearMiss‑1은 HS 재현율을 크게 향상시킨다. 반면 RandomUnderSampler, 클래스 가중치, RandomOverSampler는 LS·HS 양쪽의 성능을 균형 있게 개선한다. 연구 결과는 안전 분석가가 목표에 맞는 모델·특징·균형화 전략을 선택하도록 실용적인 지침을 제공한다.

상세 분석

본 논문은 작업구역 내 대형차 사고의 심각도 예측을 위해 데이터 불균형 문제를 체계적으로 다루었다는 점에서 학술적·실무적 의의가 크다. 첫째, 5,351건의 사고 데이터를 LS(79%)와 HS(21%)로 이분화하고, 결측치 10% 이하인 변수는 최빈값 대체, 50% 초과는 삭제하는 전처리 과정을 투명하게 제시하였다. 이는 교통안전 데이터 특유의 불완전성을 최소화하면서도 모델링에 필요한 정보를 보존한다. 둘째, 특징 선택 단계에서 Pearson 상관, RF 기반 중요도, RFE‑LR, Chi2, 그리고 차별적 상호정보(DMI) 등 5가지 방법을 적용했으며, DMI가 HS 사고를 예측하는 데 가장 높은 정보량을 제공한다는 결과를 도출했다. DMI는 클래스 간 차이를 극대화하는 특성 선택 기법으로, 데이터 균형화 없이도 HS 예측 정확도를 크게 끌어올렸다. 셋째, 모델링에는 베이지안 혼합 로짓(BML), CatBoost, LightGBM, XGBoost, ExtraTrees, RandomForest, NeuralNetTorch, NeuralNetFastAI 등 12종의 통계·머신러닝·딥러닝 모델을 사용했다. 특히 CatBoost, LightGBM, XGBoost와 같은 그래디언트 부스팅 계열은 DMI 선택 특징과 결합했을 때 HS 재현율과 전체 정확도 모두에서 우수한 성능을 보였다. 넷째, 데이터 균형화 기법으로는 NearMiss‑1, RandomUnderSampler, RandomOverSampler, SMOTE, ADASYN, K‑SMOTE, WGAN‑GP 등 10가지를 실험하였다. NearMiss‑1은 다수 클래스(LS)를 체계적으로 축소해 HS 재현율을 0.78까지 끌어올렸으며, LightGBM과 결합했을 때 가장 높은 HS F1 점수를 기록했다. 반면 RandomUnderSampler와 클래스 가중치 적용은 LS와 HS 사이의 정확도 차이를 완화해 전체적인 균형 성능을 최적화했다. 다섯째, 성능 평가지표로는 정확도, 정밀도, 재현율, F1‑Score, AUC‑ROC를 모두 사용했으며, 특히 HS 재현율과 HS AUC에 중점을 두어 모델 선택 기준을 명확히 했다. 마지막으로, 연구는 실무 적용 시 목표에 따라 “HS 재현율 극대화”와 “LS·HS 균형” 두 가지 전략을 제시한다. 예를 들어, 고위험 구간을 사전에 차단하고자 할 경우 NearMiss‑1 + DMI + LightGBM 조합을, 전체 사고 추세를 균형 있게 파악하고자 할 경우 RandomUnderSampler + 클래스 가중치 + NeuralNetTorch 조합을 권장한다. 이러한 전략적 제안은 교통안전 정책 수립·현장 적용에 직접적인 가치를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기