공정성 기반 다목표 강화학습을 이용한 자율 교차로 관리

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전기차와 내연기관차가 혼재하는 복잡한 교차로에서 교통 효율성과 배출 감소를 동시에 최적화하고, 차량 종류 간 서비스 공정성을 보장하기 위해 다목표 강화학습(MORL) 프레임워크와 사후 공정성 기준을 결합한 새로운 접근법을 제안한다. 시뮬레이션 결과, 제안 방법은 파레토 최적 정책 집합을 효과적으로 학습하고, 공정성 점수를 기반으로 가장 균형 잡힌 정책을 선택함으로써 기존 방법 대비 충돌 감소와 배출 저감, 그리고 전기차·내연기관차 간 평균 통행시간 차이를 최소화한다.

상세 분석

이 연구는 자율 교차로 관리(AIM) 분야에서 아직 충분히 다루어지지 않은 ‘공정성’이라는 사회적 요구를 기술적 목표와 결합한다는 점에서 혁신적이다. 먼저 기존의 강화학습 기반 AIM이 주로 전체 교통량 최소화, 평균 지연시간 감소 등 전역적인 효율성에만 초점을 맞추는 반면, 본 논문은 전기차와 내연기관차라는 이질적인 차량군을 명시적으로 구분하고, 각각의 특성(배출량, 가속·감속 능력 등)을 그래프 기반 상태 표현에 통합한다. 이는 차량 유형을 나타내는 이진 변수 k와 엣지 타입을 연료 조합(pp, pe, ep, ee)으로 확장함으로써 구현된다.

다목표 보상 설계는 세 가지 핵심 요소로 구성된다. 효율성 보상 R_eff은 차량 속도 대비 제한 속도의 비율을 비선형 함수로 매핑해 고속 주행을 장려하면서 과속을 억제한다. 환경 보상 R_env는 내연기관차의 CO₂ 배출량을 직접 페널티로 부여해 배출 감소를 유도한다. 안전 보상 R_saf는 충돌 발생 시 큰 패널티(-10)와 전체 정지 시 작은 패널티(-1)를 부여해 안전을 비가역적인 목표로 설정한다. 특히 R_saf는 무게 파라미터 ω와 무관하게 항상 적용돼, 효율성·환경성 간의 트레이드오프가 공정성에 영향을 미치더라도 안전은 절대적으로 보장한다.

핵심 기법은 파라미터 ω∈

공정성 기반 다목표 강화학습을 이용한 자율 교차로 관리

초록

상세 분석

댓글 및 학술 토론

의견 남기기