미시 차량과 거시 교통 통계 정렬: 부분 데이터로 운전 행동 재구성
초록
본 논문은 차량에 장착된 마이크로 센서와 도로 인프라의 매크로 센서를 결합해, 관측되지 않은 개별 차량 상태를 복원하고, 관찰된 행동과 전체 교통 흐름을 동시에 만족하는 공유 운전 정책을 학습하는 두 단계 프레임워크를 제안한다.
상세 분석
이 연구는 자율주행 차량이 인간 운전자와 원활히 협업하기 위해서는 미시적(개별 차량) 데이터와 거시적(전체 교통 흐름) 데이터가 모두 필요하다는 전제를 바탕으로 한다. 기존의 지도학습·모방학습은 고해상도 차량 센서 데이터를 요구하지만, 관측 범위가 제한적이며 라벨링 비용이 크다. 반면 강화학습 기반 시뮬레이션은 매크로 통계에 맞추어 환경을 설계하지만, 개별 운전 행동과의 연결 고리가 약해 정책의 현실성이 떨어진다. 논문은 이러한 상보적 데이터를 동시에 활용하기 위해 두 가지 핵심 모듈을 설계한다. 첫 번째는 Generator Gϕ 로, 관측된 차량 집합 s_obs와 매크로 특성 Ψ(S)를 입력으로 숨겨진 차량 상태 s_hid를 추정한다. 손실 함수 L_gen은 (1) 매크로 통계 일치 λ_macro·d(Ψ(ĤS),Ψ(S))와 (2) 재구성 일관성 λ_rec·d(ĥs_hid_{t+1}, s^πθ_hid_{t+1})를 결합한다. 두 번째는 공유 정책 πθ 로, 완전한 초기 상태 ĤS₀에서 시뮬레이션을 수행하고, 두 종류의 트래젝터리 수준 보상 r_micro와 r_macro를 동시에 최적화한다. r_micro는 관측된 차량의 행동과 정책이 생성한 행동 사이의 거리 합을 최소화하고, r_macro는 시뮬레이션 전 과정에서 매크로 통계 Ψ와 목표 통계 간 차이를 최소화한다. 전체 목표 J(θ)=E_τ
댓글 및 학술 토론
Loading comments...
의견 남기기