실시간 택시 목적지와 이동시간 예측을 위한 블루택시 모델
초록
**
본 논문은 170만 건의 포르투 택시 데이터를 활용해, 부분 궤적만으로도 목적지와 남은 이동시간을 정확히 예측하는 방법을 제시한다. 핵심은 유사 여행 매칭과 커널 회귀, 그리고 랜덤 포레스트·그라디언트 부스팅·극단적 트리 등 여러 회귀 모델을 스태킹한 앙상블이다. 실험 결과, 테스트 셋 320건에 대해 목적지 예측 7위, 이동시간 예측 3위를 기록하며 높은 견고성을 입증한다.
**
상세 분석
**
이 연구는 실시간 택시 디스패치 시스템에 직접 적용 가능한 예측 엔진을 설계한다는 점에서 실용적 의의가 크다. 먼저 데이터 전처리 단계에서 GPS 누락·오류를 탐지하고, 160 km/h 이상의 비현실적 이동을 보이는 구간을 제거함으로써 잡음 감소에 주력한다. 특히, 시작 시각이 부정확한 레코드와 미터가 꺼지지 않은 장거리 귀환 구간을 별도 처리해 모델 학습에 방해가 되지 않도록 한다.
목적지 예측은 “유사 여행 매칭”이라는 직관에 기반한다. 테스트 트립 A와 가장 거리상 가깝고 GPS 포인트 수가 동일하거나 많은 10개의 학습 트립 B를 찾고, 각 B의 최종 좌표를 평균·가중 평균하는 방식으로 초기 후보를 만든다. 여기서 거리 측정은 평균 하버사인 거리(점‑점 평균)로 정의했으며, 동적 시간 왜곡(DTW)보다 계산 효율이 뛰어나 선택되었다. 또한, 커널 회귀(KR)를 적용해 하이퍼파라미터인 대역폭을 0.005, 0.05, 0.5 로 변형시켜 세 가지 예측값을 생성하고, 이를 추가 피처로 활용한다.
특히, 전체 궤적이 아닌 마지막 500~700 m 구간만을 이용한 KR이 목적지 좌표 예측에 가장 큰 기여를 함을 실험적으로 확인했다. 이는 택시가 목적지에 접근할수록 경로가 수렴하는 현상을 반영한다는 점에서 의미가 있다. 또한, 호출 ID, 택시 ID, 요일·시간 등 메타 정보를 활용한 “컨텍스추얼 KR”을 도입했으며, 이 중 호출 ID 기반 KR이 가장 높은 정확도를 보였다.
GPS 잡음 억제를 위해 라인 단순화(Ramer‑Douglas‑Peucker) 알고리즘을 적용했으며, ε 파라미터를 1e‑6, 5e‑6, 5e‑5 로 조정해 세 단계의 단순화 데이터를 모두 활용했다. 이렇게 정제된 궤적에서 추출한 피처와, 시작‑끝 좌표 간 유클리드·하버사인 거리, 이동 방향(도심 진입·이탈), GPS 포인트 수, 요일 등 30여 개의 기본 피처를 결합했다.
이동시간 예측은 목적지 예측과 거의 동일한 피처 구성을 사용하되, 목표 변수를 “남은 시간”으로 정의하고 로그 변환을 적용했다. 추가적으로, 최근 10200 m 구간의 평균 속도·가속도, 전체 구간 평균 속도, 동일 시점 전후 1시간 내 다른 트립들의 평균 속도, 궤적 복잡도(유클리드 거리 대비 하버사인 거리 비율) 등을 포함해 총 66개의 피처를 구성했다. 결측 GPS 구간은 속도 상한(100160 km/h) 초과 여부로 라벨링해, 결측이 많은 트립이 이동시간이 길어지는 경향을 모델에 반영하였다.
모델링 단계에서는 목적지 예측에 랜덤 포레스트(RF)를 주 모델로 채택했으며, 피처 중요도 분석을 통해 불필요한 피처를 제거하고 2000개의 트리를 사용해 초기 모델을 학습한 뒤, 90 % 오류 상위 트립을 제외하고 재학습함으로써 이상치에 대한 강인성을 확보했다. 이동시간 예측은 Gradient Boosted Regression Trees(GBRT), RF, Extremely Randomized Trees(ERT) 세 모델을 개별 학습하고, 스태킹(Stacked Generalization) 방식을 통해 메타 회귀기(Meta‑Regressor)를 훈련시켜 최종 예측을 도출했다. 스태킹 과정에서는 학습 데이터를 검증·테스트 셋으로 균등 분할하고, 검증 셋 예측값을 메타 모델 입력으로 사용함으로써 과적합을 방지하였다.
실험 결과, 공개 리더보드와 비공개 테스트 셋 모두에서 목적지 예측은 7위, 이동시간 예측은 3위를 기록하였다. 특히 테스트 셋이 320건이라는 극히 제한된 규모임에도 불구하고, 다양한 스냅샷(5개 요일·시간)에서 추출한 13 301건의 학습 데이터를 활용해 일관된 성능을 유지한 점이 모델의 견고함을 입증한다. 또한, 지오해시(Geohash) 기반 근접 검색을 도입해 최근접 이웃 탐색 속도를 크게 향상시켰으며, 정확도 저하 없이 효율성을 높였다.
전체적으로 이 논문은 (1) 데이터 정제와 잡음 억제, (2) 부분 궤적만을 활용한 유사 트립 매칭 및 커널 회귀, (3) 메타 정보를 결합한 컨텍스추얼 피처 설계, (4) 강건한 앙상블 및 스태킹 기법 적용이라는 네 가지 핵심 요소를 통해 실시간 택시 목적지·시간 예측 문제에 효과적인 솔루션을 제공한다는 점에서 학술적·산업적 가치를 동시에 지닌다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기