경쟁자 인식 전기 내구 레이스 관리
전기 내구 레이스에서 에너지 제약과 공기역학적 상호작용을 동시에 고려한 두 단계 최적화 프레임워크를 제안한다. 하위 단계에서는 단일 랩을 대상으로 다중 에이전트 게임 이론 기반 최적 제어를 풀어 공기역학과 비대칭 충돌 회피 제약을 모델링하고, 상위 단계에서는 강화학습을 이용해 배터리 에너지 할당과 피트‑스톱·충전 스케줄을 장기적으로 학습한다. 두 대의 차량이 45랩을 달리는 시뮬레이션 결과, 슬립스트리밍을 전략적으로 활용하는 것이 승패를 가르는…
저자: Wytze de Vries, Erik van den Eshof, Jorn van Kampen
본 연구는 전기 내구 레이스의 특수성을 고려한 새로운 레이스 관리 프레임워크를 제시한다. 전기 레이스는 배터리 용량이라는 고정된 에너지 예산과, 차량 간 공기역학적 상호작용이라는 두 가지 주요 제약을 동시에 가지고 있다. 기존 연구들은 주로 단일 차량의 랩 타임 최소화 혹은 전기 하이브리드 차량의 장거리 전략에 초점을 맞추었으며, 다중 차량 간의 경쟁적 상호작용을 충분히 반영하지 못했다. 저자들은 이를 해결하기 위해 ‘하위 레벨’과 ‘상위 레벨’로 구성된 이중 최적화 구조를 설계하였다.
하위 레벨에서는 단일 랩을 공간 도메인(s)에서 정의하고, 차량의 가속·제동·조향 입력을 연속 변수 u(s)로 표현한다. 차량 동역학은 기존의 자전거 모델을 기반으로 하면서, 트랙 경사·뱅킹, 로드‑센시티브 그립, 그리고 전기 모터의 quadratic 손실 모델을 포함한다. 가장 큰 차별점은 공기역학적 드래그와 다운포스를 차량 간 거리와 상대 속도에 따라 동적으로 계산한다는 점이다. 이를 통해 앞차가 뒤차에 제공하는 슬립스트리밍 효과와, 뒤차가 앞차를 추월할 때 발생하는 추가 저항을 정량화한다.
또한, 충돌 회피 제약을 비대칭적으로 설계하였다. 실제 모터스포츠 규정에 따르면 앞차는 라인 선택에 제한이 없고, 뒤차가 안전 거리를 유지해야 한다. 이를 구현하기 위해 시간 간격 t_gap과 횡간 거리 y_gap을 이용한 타원형 안전 영역을 정의하고, 상대 위치 Δp(s)를 tanh 함수를 통해 부드럽게 스위칭한다. 이 방식은 앞차가 불필요하게 라인을 포기하지 않게 하면서도, 뒤차가 급격히 접근할 때 안전 거리를 강제한다.
목표 함수는 최종 상대 위치 Δp(s_lap)와 랩 타임 t(s_lap)의 가중합으로 구성된다. 위치 가중치 w_pos를 크게 설정해 ‘앞서기’를 기본 목표로 두면서도, 위치 변화가 어려운 상황에서는 랩 타임을 최소화하도록 유도한다. 이렇게 정의된 단일 에이전트 최적 제어 문제는 비선형 프로그램(NLP) 형태로 풀리며, KKT 조건을 이용해 두 차량의 문제를 하나의 NLP로 통합한다. Nash 균형을 선택함으로써 두 차량이 동시에 최적 전략을 선택하도록 한다. 결과는 결정적(open‑loop) 궤적이며, 이는 완전 정보 하에서의 최적 행동을 나타낸다.
상위 레벨에서는 단일 랩 최적화 결과를 ‘환경’으로 활용한다. 각 랩의 시작 시점에 전략 엔지니어가 배터리 에너지 할당 ΔE_i(k)와 피트‑스톱·충전 여부를 결정한다. 이때 상태는 현재 시간 간격 t_gap(k)이며, 행동은 ΔE_i(k)이다. 단일 랩 최적화 문제를 풀어 얻은 전이 함수 ρ(ΔE_A, ΔE_B, t_gap) 를 통해 다음 랩의 t_gap(k+1)을 계산한다. 이렇게 정의된 마코프 결정 과정(MDP)을 기반으로 강화학습(RL) 에이전트를 훈련한다. 보상은 최종 상대 위치와 전체 순위에 기반해 설계돼, 단순 시간 최소화가 아닌 ‘승리 확률 극대화’를 목표로 한다.
시뮬레이션은 Zandvoort 서킷을 모델링한 45랩 레이스에서 두 대의 차량을 대상으로 수행되었다. RL 기반 전략은 초기 랩에서 슬립스트리밍을 적극 활용해 에너지 소비를 줄이고, 중후반에 오버테이킹을 시도하는 패턴을 보였다. 결과적으로 평균 순위가 1.3포지션 상승했으며, 고정 에너지 할당 전략에 비해 전체 레이스 시간이 2.1% 단축되었다. 비대칭 충돌 회피 제약을 제거하면 앞차가 라인을 포기하게 되어 전체 레이스 시간이 증가하고 승률이 크게 감소하는 등, 제안된 제약이 실제 레이스 규칙을 반영하는 데 중요함을 확인했다.
결론적으로, 본 논문은 (1) 공기역학적 상호작용을 명시적으로 모델링하고, (2) 비대칭 충돌 회피 규칙을 도입해 실제 레이스 규정을 반영한 다중 에이전트 최적 제어를 구현했으며, (3) 단일 랩 최적화를 환경으로 활용한 강화학습을 통해 장기 에너지 관리와 피트 전략을 동시에 최적화할 수 있음을 입증하였다. 향후 연구에서는 다수의 차량을 포함한 확장, 실시간 온라인 정책 업데이트, 그리고 실제 전기 레이스 데이터와의 검증을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기