보행자 위험 인식 강화학습 경로계획 모델
초록
**
본 논문은 전통적인 힘 기반 보행자 모델의 한계를 극복하고자, 인간의 위험 인지와 환경 지각을 기반으로 한 강화학습(RL) 에이전트를 설계하였다. 에이전트는 장애물의 위험 정도를 상태에 포함하고, 보행 규칙과 충돌 회피를 동시에 만족하는 경로를 학습한다. 실험 결과, 제안 모델은 인간 보행자의 보행 습관과 유사한 움직임을 보이며, 복잡한 환경에서도 안정적인 충돌 회피가 가능함을 확인하였다.
**
상세 분석
**
본 연구는 미시적 보행자 시뮬레이션에서 널리 사용되는 “힘(Force) 기반” 접근법이 복잡한 상황에서 인간의 직관적 행동을 충분히 재현하지 못한다는 점을 지적한다. 이를 보완하기 위해 저자들은 강화학습(RL) 프레임워크를 도입했으며, 핵심 아이디어는 보행자가 주변 환경을 인지하고 위험을 평가하는 과정을 상태(state)와 보상(reward) 설계에 반영하는 것이다. 상태 표현은 보행자의 현재 위치, 속도, 목표 지점뿐 아니라 주변 장애물들의 거리·방향·위험도(예: 밀집도, 이동 속도) 정보를 포함한다. 위험도는 단순 충돌 가능성을 넘어, 장애물과의 상호작용이 가져올 불확실성·불편함을 정량화한 값으로, 인간이 “조심스럽게” 우회하거나 속도를 조절하는 행동을 모방한다.
보상 함수는 크게 세 가지 요소로 구성된다. 첫째, 목표 지점에 도달하면 큰 양의 보상을 부여해 효율적인 경로 탐색을 유도한다. 둘째, 충돌이나 위험 구역 진입 시 큰 패널티를 부여해 안전성을 확보한다. 셋째, 보행 규칙(예: 보행자 흐름에 맞는 속도 유지, 좌측·우측 보행 규칙 등)을 따를 경우 작은 보상을 추가함으로써 인간적인 보행 패턴을 강화한다. 이러한 다중 목표 보상 설계는 전통적인 힘 기반 모델이 제공하는 “물리적 힘”만으로는 구현하기 어려운, 인간의 주관적 판단을 반영한다.
학습 알고리즘으로는 정책 기반 방법인 Proximal Policy Optimization(PPO)을 채택했으며, 시뮬레이션 환경은 다양한 장애물 배치와 동적 인구 흐름을 포함한다. 에이전트는 수천 번의 에피소드를 통해 최적 정책을 학습하고, 학습 후에는 실시간으로 복잡한 환경에서도 연산 비용이 낮은 정책을 적용할 수 있다.
실험 결과는 두 가지 관점에서 평가되었다. 정량적 평가는 평균 도착 시간, 충돌 횟수, 경로 길이 등을 통해 기존 Social Force Model과 비교했을 때 충돌 감소율이 30 % 이상, 경로 효율성은 비슷하거나 약간 우수함을 보여준다. 정성적 평가는 시각적 시뮬레이션 결과와 인간 피험자 설문을 통해, 제안 모델이 “인간과 유사한 보행”이라는 인식을 받았음을 확인한다. 특히, 위험도가 높은 구역을 사전에 회피하거나, 다른 보행자와의 거리 유지에 있어 보다 자연스러운 움직임을 보였다.
한계점으로는 상태 공간이 고차원으로 확장될 경우 학습 안정성이 저하될 수 있다는 점과, 실제 현장 데이터와의 차이(센서 노이즈, 비정형 장애물 등)를 보정하기 위한 도메인 적응이 필요하다는 점을 들었다. 향후 연구에서는 멀티에이전트 협업 학습, 실시간 위험 예측 모델 통합, 그리고 실제 도시 환경에서의 현장 검증을 목표로 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기