통근자 유형 추정을 위한 고유 이동 행렬 분석

스마트 카드 이용 기록을 3개월간 수집해 42×20 형태의 ‘고유 이동 행렬(eigentravel matrix)’을 만들고, 이를 840개의 특징으로 변환해 성인·학생·노인 세 승객 유형을 분류하였다. Gradient Boosting 모델이 76% 정확도로 가장 높은 성능을 보였으며, 평일 시간대 특징이 주된 예측 요인으로 나타났다.

저자: Erika Fille Legara, Christopher Monterola

통근자 유형 추정을 위한 고유 이동 행렬 분석
이 논문은 자동 요금 징수(AFC) 시스템에서 수집된 스마트 카드 데이터를 이용해 승객의 인구통계학적 유형을 식별하는 방법론을 제시한다. 연구 배경으로는 교통 정책 및 도시 계획에서 연령·직업군별 이동 패턴을 이해하는 것이 중요하다는 점을 들며, 기존 연구는 주로 개인의 이동 목적지나 활동 장소를 예측하는 데 초점을 맞추었다는 한계를 지적한다. 데이터는 싱가포르 전역의 버스와 철도 시스템을 이용하는 EZ‑link 카드의 3개월 이용 기록이며, 총 3백만 건 이상의 거래 중 무작위로 30 000명의 정규 이용자를 추출하였다. 표본은 성인, 학생·아동, 노인 세 그룹으로 균등하게 구성되었으며, 각 거래는 카드 ID, 출발·도착 정류장, 시작·종료 시각, 이용 교통수단, 승객 유형을 포함한다. 연구의 핵심은 ‘고유 이동 행렬(eigentravel matrix)’이라는 42×20 형태의 특징 행렬을 각 승객에 대해 구축하는 것이다. 행은 14주 동안의 평일, 토요일, 일요일을 각각 14줄씩 구분하고, 열은 하루 04:00부터 23:59까지의 1시간 구간을 나타낸다. 각 셀은 해당 시간에 발생한 이동 시간(분)을 합산하고, 교통수단에 따라 가중치(f)를 부여한다(버스 = 1, 철도 = 10). 이렇게 정의된 값 b_{w,h}=∑(f·Δρ/60)은 0에서 10 사이의 실수이며, 승객의 이동량과 교통수단 선호를 동시에 반영한다. 행렬을 1차원 벡터(840 차원)로 변환한 뒤, 이를 입력 변수로 사용해 세 가지 지도학습 모델을 훈련시켰다. Distributed Random Forest(DRF)와 Gradient Boosting Machine(GBM)은 H2O 파이썬 모듈로 구현했으며, Support Vector Machine(SVM)은 scikit‑learn을 이용했다. 모델 성능 평가는 비례우연 기준(PCC)을 기준으로 최소 41% 정확도가 요구되었으며, 실제 결과는 GBM이 76% 정확도로 가장 높은 성능을 보였다. DRF와 SVM도 각각 72%와 68%의 정확도를 기록했다. 특징 중요도 분석을 통해 평일 07‑09시와 17‑19시 구간이 성인 승객을 구분하는 핵심 변수임을 확인했다. 학생·아동은 오전 08‑10시 피크가 두드러졌으며, 노인은 전반적으로 낮 시간대에 고르게 분포하는 패턴을 보였다. 주말 특징은 평일에 비해 예측 기여도가 낮아, 평일 데이터가 모델 성능에 결정적임을 시사한다. 연구 결과는 교통 정책 입안에 실질적인 활용 가치를 제공한다. 예를 들어, 학생 비중이 높은 시간대에 전용 버스 노선을 확대하거나, 노인 비중이 높은 지역에 저상버스와 같은 접근성을 강화하는 방안을 설계할 수 있다. 또한, 승객 유형 정보를 실시간으로 활용하면 광고·서비스 안내를 맞춤형으로 제공하거나, 대규모 교통 시뮬레이션을 위한 합성 인구를 보다 현실적으로 생성할 수 있다. 결론적으로, 고유 이동 행렬이라는 시계열‑공간‑수단 복합 특징을 도입함으로써 기존의 단순 출발·도착 시점 기반 분석을 넘어, 승객의 일상적 이동 습관을 정량화하고 이를 기반으로 정확한 인구통계학적 분류가 가능함을 입증하였다. 향후 연구에서는 더 긴 기간의 데이터, 추가적인 교통수단(예: 택시, 공유 모빌리티) 및 외부 요인(날씨, 행사) 등을 포함해 모델을 확장하고, 실시간 예측 시스템으로의 적용 가능성을 탐색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기