경험을 통해 진화하는 운전자의 선택 패턴을 밝히는 베이지안 강화학습 모델
초록
본 연구는 기존의 정적인 선호도 모델의 한계를 극복하기 위해, 운전자가 경험을 통해 선호도를 업데이트하는 과정을 포착하는 ‘잠재계층 강화학습(LCRL)’ 프레임워크를 제안합니다. 베이지안 추론을 통해 운전자를 세 가지 학습 유형으로 분류하고, 각 유형이 어떻게 탐색과 착취의 전략을 사용하는지 분석했습니다.
상세 분석
이 논문의 핵심 기술적 기여는 전통적인 이산 선택 모델(DCM)의 정적 한계를 극복하기 위해 강화학습(RL)의 동적 메커니즘을 잠재계층(Latent Class) 구조와 결합한 데 있습니다. 연구진은 Rescorla-Wagner 모델을 도입하여, 선택된 대안의 기대 가치($Q$)가 학습률($\alpha$)에 따라 예측 오차를 바탕으로 업데이트되는 과정을 수식화했습니다. 특히 효용 함수 $U = \gamma \pm \beta Q + \epsilon$에서 $\beta$ 파라미터를 통해 탐색(Exploration)과 착취(Exploitation) 사이의 트레이드오프를 정밀하게 제어할 수 있도록 설계했습니다.
수학적 추정 측면에서는 변분 베이지안(Variational Bayes) 방법을 채택했습니다. 이는 잠재계층 모델이 가진 고차원적인 파라미터 공간을 효율적으로 탐색하면서도, 사후 분포의 불확실성을 정량화할 수 있는 강력한 도구입니다. 이를 통해 대규모 시뮬레이션 데이터에서도 계산 비용을 억제하며 안정적인 추론을 가능케 했습니다. 또한, 단순히 개인의 선호도를 측정하는 것에 그치지 않고, $\alpha$와 $\beta$라는 두 가지 핵심 파라미터를 통해 ‘학습의 속도’와 ‘학습된 정보의 활용 방식’을 분리하여 분석할 수 있는 구조적 틀을 마련했습니다. 이는 교통 수요 예측 모델이 단순한 통계적 회귀를 넘어, 인간의 인지적 적응 과정을 모사할 수 있는 중요한 기술적 진보를 보여줍니다.
전통적인 교통 공학 및 행동 과학 분야에서 사용되는 이산 선택 모델(DCM)은 여행자의 선호도가 시간의 흐름에 따라 변하지 않는 정적인 상태라고 가정하는 경향이 있습니다. 그러나 실제 운전자는 경로를 선택하고 주행하는 과정에서 발생하는 피드백(예: 예상보다 긴 소요 시간)을 통해 자신의 기대를 수정하고 새로운 경로를 탐색합니다. 본 연구는 이러한 ‘경험을 통한 학습’과 ‘개인 간의 행동 차이’라는 두 가지 핵심 요소를 동시에 포착하기 위해 ‘잠재계층 강화학습(Latent Class Reinforcement Learning, LCRL)‘이라는 혁신적인 프레임워크를 제안합니다.
연구의 방법론적 핵심은 강화학습의 Rescorla-Wagner 모델을 잠재계층 구조에 통합한 것입니다. 연구진은 운전자가 특정 경로를 선택했을 때 발생하는 예측 오차를 바탕으로 해당 경로의 기대 가치($Q$)를 업데이트하는 메커니즘을 구축했습니다. 이때 학습률($\alpha$)은 새로운 정보가 기존 지식에 반영되는 속도를 결정하며, 민감도 파라미터($\beta$)는 학습된 정보를 바탕으로 기존 경로를 고수할지(Exploitation) 아니면 새로운 경로를 시도할지(Exploration)를 조절합니다. 이러한 복잡한 파라미터 추정 문제를 해결하기 위해 변분 베이지안(Variational Bayes) 기법을 사용했습니다. 이 방법은 대규모 데이터셋에서도 계산 효율성을 유지하면서, 각 파라미터의 불확실성을 통계적으로 엄밀하게 산출할 수 있게 해줍니다.
데이터 수집 과정에서는 운전 시뮬레이터를 활용한 독특한 실험 설계를 선보였습니다. 참여자들은 반복적인 경로 선택 과제를 수행하며, 실제 주행 결과와 자신의 예상치 사이의 차이를 경험합니다. 이러한 시뮬레이션 환경은 설문 조사만으로는 포기하기 어려운 ‘피드백 기반의 학습 과정’을 실시간으로 기록할 수 있게 합니다.
분석 결과, 운전자는 학습 전략에 따라 세 가지의 뚜렷한 잠재 계층으로 구분되었습니다. 첫 번째 클래스는 상황에 따라 선호가 변하며 특정 맥락에서만 착취적 성향을 보이는 ‘맥락 의존적 학습자’입니다. 두 번째 클래스는 학습률은 낮지만 한 번 형성된 선호를 강력하게 유지하려는 ‘지속적 착취자’로, 초기 경험에 의존하는 경향이 큽니다. 세 번째 클래스는 새로운 경로를 끊임없이 시도하면서도 맥락별 선호를 유지하는 ‘지속적 탐색자’의 특성을 보였습니다.
물론 본 연구에는 몇 가지 한계점도 존재합니다. 현재 모델은 선택되지 않은 대안에 대한 가치 업데이트가 이루어지지 않는 ‘선택 전용(Selection-only)’ 방식이며, 동일 클래스 내의 개인별 미세한 차이를 완전히 반영하지 못한다는 점이 지적되었습니다. 또한 시뮬레이터라는 통제된 환경의 데이터이므로, 실제 도로의 돌발 상황(사고, 기상 악기 등)에 대한 일반화 연구가 추가로 필요합니다. 향후 연구에서는 비선택 대안의 가치 감쇠 효과를 도입하고, 실시간 교통 데이터와 결합하여 모델의 예측력을 높이는 방향으로의 확장이 기대됩니다. 이러한 연구 결과는 향후 개인 맞춤형 교통 정보 서비스나 지능형 교통 시스템(ITS)의 정책 설계 시, 사용자 유형별로 차별화된 인센티브나 정보를 제공하는 데 중요한 기초 자료가 될 것입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기