부동 차량 데이터 기반 여행시간 예측
초록
본 보고서는 뉴델리 5km 고속도로에서 한 달간 수집한 부동 차량 데이터를 활용하여 머신러닝 기법으로 도심 및 고속도로 구간의 여행시간을 정밀하게 예측하는 방법을 제시한다. 전체 시스템 아키텍처와 주요 모델들을 구현·평가한 결과, 시계열 기반 딥러닝 모델이 가장 높은 정확도를 보였다.
상세 분석
본 연구는 부동 차량 데이터(Floating Car Data, FCD)를 이용한 여행시간 추정 문제를 체계적으로 접근한다. 데이터 수집 단계에서는 GPS 기반 위치 정보와 타임스탬프를 5km 구간 고속도로에 1초 간격으로 기록했으며, 총 1백만 건 이상의 레코드를 확보하였다. 전처리 과정에서는 결측치 보정, 이상치 제거, 그리고 도로 구간별 매핑을 수행하여 각 차량이 통과한 구간과 해당 구간의 실제 주행 시간을 추출하였다. 특징 엔지니어링에서는 시간대, 요일, 날씨, 교통량, 전방 차량 밀도 등 12개의 정형 특징을 생성했으며, 공간적 연속성을 반영하기 위해 인접 구간의 평균 속도와 가속도도 포함시켰다. 모델링 단계에서는 선형 회귀, 랜덤 포레스트, 그래디언트 부스팅 머신(GBM), 그리고 장단기 메모리(LSTM) 기반 순환 신경망을 비교하였다. 전통적인 회귀 모델은 빠른 학습 속도와 해석 용이성을 제공했지만, 비선형 교통 흐름을 충분히 포착하지 못해 MAE가 12.4초에 머물렀다. 반면 랜덤 포레스트와 GBM은 트리 기반 앙상블 구조로 비선형 관계를 효과적으로 학습하여 MAE를 각각 9.1초, 8.7초로 개선하였다. 가장 높은 성능을 보인 LSTM 모델은 시계열 특성을 활용해 과거 5분 간의 속도 변화를 입력으로 사용했으며, 테스트 셋에서 RMSE 10.2초, MAE 7.3초를 기록하였다. 모델 평가에서는 교차 검증과 시간 순서에 따른 롤링 윈도우 방식을 적용해 실제 운영 환경에서의 일반화 능력을 검증하였다. 또한, 실시간 추론을 위한 경량화 전략으로 모델 압축과 양자화를 수행했으며, 추론 지연 시간을 30ms 이하로 감소시켜 실시간 교통 정보 서비스에 적용 가능함을 입증하였다. 한계점으로는 데이터가 한 구간에 국한되어 있어 다른 도로 유형이나 도시 구조에 대한 확장성이 검증되지 않았으며, 날씨와 이벤트와 같은 외부 요인의 정량적 영향 분석이 부족했다. 향후 연구에서는 다중 도로 네트워크와 다양한 센서 데이터를 통합하고, 그래프 신경망을 활용해 도로망 전체의 흐름을 동시에 모델링하는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기