안전하고 적응적인 자율주행 경로 계획을 위한 에너지 기반 확산 모델
초록
본 논문은 전문가 FSM을 이용한 행동 복제와 IRL 기반 보상 학습을 결합한 하이브리드 학습 파이프라인을 제시한다. 조건부 확산 모델을 안전 감독자로 활용해 위험 상황에서 에너지 기반 가이드를 적용하고, 차량 속도와 라이다 거리 정보를 이용한 학습 가능한 적응 마스크(LAM)로 시각 인식을 동적으로 조절한다. 초기 BC 학습 후 PPO로 미세조정하며, Webots 시뮬레이터에서 96 % 성공률과 0.05 collision/1k steps를 달성한다.
상세 분석
IRL‑DAL은 자율주행 시스템의 세 가지 핵심 문제—학습 효율성, 안전성, 인식 적응성—를 동시에 해결하려는 통합 프레임워크이다. 첫 단계에서는 전문가가 설계한 유한 상태 기계(FSM)로부터 행동을 모방하는 행동 복제(Behavioral Cloning, BC)를 수행한다. 이는 정책 초기화를 안정적으로 만들며, 데이터 효율성을 크게 높인다. 이후에는 Proximal Policy Optimization(PPO)과 결합된 하이브리드 보상 함수를 사용한다. 보상은 환경 기반 항목과 IRL 디스크리미네이터가 제공하는 내재 보상으로 가중합을 이루며, w_IRL이라는 단계별 가중치를 통해 학습 초기에 환경 보상을, 후기에 IRL 보상을 점진적으로 강조한다. 이러한 설계는 손수 만든 희소 보상의 한계를 넘어, 전문가 시연에서 추출한 밀집 보상을 자동으로 학습하게 한다.
안전 감독자로서 도입된 조건부 확산 모델은 에너지 기반 가이드를 통해 역확산 과정에서 충돌 회피와 제어 연속성을 강제한다. 구체적으로, 확산 단계마다 충돌 가능성을 나타내는 에너지 함수를 미분해 그래디언트를 얻고, 이를 노이즈 샘플에 추가함으로써 “안전한” 궤적을 샘플링한다. 이 과정은 고위험 상황에서만 활성화되며, 정책이 자체적으로 안전성을 내재화하도록 경험을 교정한다.
시각 인식 측면에서는 Learnable Adaptive Mask(LAM)를 도입한다. LAM은 차량 속도(v_norm)와 최소 라이다 거리(h)라는 두 개의 스칼라 신호를 받아, 각각 α_speed와 α_lidar라는 학습 가능한 파라미터와 곱해 가중치를 조정한다. 이렇게 얻은 동적 하향 그라디언트 마스크는 원본 RGB 이미지에 채널 차원으로 결합되어 4채널 입력을 만든다. 결과적으로 고속 주행 시 차선 유지에 필요한 하부 영역이 강조되고, 위험 물체가 가까워질 때는 전방 시야가 강조된다. LAM은 BC 손실과 함께 역전파되어, 정책이 상황에 맞는 주의 집중 전략을 스스로 학습하도록 만든다.
전체 학습은 두 단계 커리큘럼으로 진행된다. 1) FSM 기반 BC로 정책을 초기화하고 LAM을 동시에 학습한다. 2) PPO와 하이브리드 보상으로 정책을 미세조정하면서, 위험 상황에서 확산 기반 안전 플래너가 제시하는 안전 궤적을 경험 버퍼에 저장한다. 이렇게 하면 정책이 오프라인 플래너에 의존하지 않고도 실시간 안전성을 확보한다. 실험은 Webots 시뮬레이터에서 다양한 교통 시나리오와 장애물 배치를 사용해 수행했으며, 96 %의 성공률과 0.05 collision/1k steps라는 기존 최고 수준의 안전 지표를 기록했다. 코드와 모델을 공개함으로써 재현 가능성을 높였으며, 향후 실제 차량 적용을 위한 실시간 구현 가능성도 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기