이고중심완전희소패러다임EgoFSD자율주행시스템
초록
EgoFSD는 이고‑중심의 완전 희소 표현을 이용해 감지·맵핑·플래닝을 하나의 파이프라인에 통합한다. 희소 퍼셉션으로 객체와 온라인 맵을 동시에 추출하고, 기하학적 사전과 의도‑가이드 어텐션을 통해 가장 위험도가 높은 근접 경로 객체(CIPV/CIPS)를 단계적으로 선택한다. 선택된 객체와 이고 차량을 공동으로 예측·플래닝하며, 위치‑레벨 모션 디퓨전과 궤적‑레벨 디노이징을 적용해 불확실성을 모델링한다. nuScenes와 Bench2Drive에서 L2 오류 59 % 감소, 충돌률 92 % 감소, UniAD 대비 6.9배 빠른 실행 속도를 달성했다.
상세 분석
EgoFSD는 기존 엔드‑투‑엔드 자율주행 모델이 겪는 두 가지 근본적인 한계를 동시에 해소한다. 첫 번째는 밀집 BEV( bird‑eye‑view ) 기반의 장면 표현이 요구하는 대규모 연산과 메모리 사용량이다. 저자는 멀티‑뷰 이미지에서 직접 추출한 다중 스케일 피처를 희소 쿼리 형태로 변환해, 객체 검출과 온라인 맵 생성을 동시에 수행한다. 이때 각 객체는 11 차원의 앵커 박스로 표현되며, 반복적인 디코더를 통해 점진적으로 정제된다. 두 번째는 인간 운전자가 실제로는 “가장 가까운 경로상의 차량/정지물”(CIPV/CIPS)만을 주시한다는 사실을 반영하지 못한 점이다. EgoFSD는 이고‑중심 교차 어텐션과 객체‑중심 자체 어텐션을 결합한 이중 인터랙션 레이어를 도입하고, 의도‑가이드 기하학적 어텐션을 통해 각 쿼리의 중요도를 정량화한다. 구체적으로 이고 차량의 속도·가속·각속도·주행 명령을 MLP로 인코딩한 의도 벡터와 BEV 격자 위치 임베딩을 결합해 응답 맵을 생성하고, 이를 정규화된 거리 맵으로 변환한다. 이 거리 맵은 “가장 가까운 미래 궤적”과의 최소 거리 기반으로 스코어를 부여해, 어텐션 스코어와 곱해 최종 인터랙션 스코어를 산출한다.
선택 과정은 코스‑투‑파인 전략으로 구현된다. 여러 단계의 이중 인터랙션 레이어 사이에 Top‑K 연산을 삽입해, 매 단계마다 가장 높은 인터랙션 스코어를 가진 객체만을 다음 레이어로 전달한다. 이렇게 하면 불필요한 객체는 초기에 차단돼 연산량이 크게 감소한다.
플래닝 단계에서는 선택된 인터랙션 객체와 이고 차량을 공동 디코더에 입력해 다중 모달 궤적을 예측한다. 여기서 두 가지 불확실성 모델링 기법이 핵심 역할을 한다. 첫째, 위치‑레벨 모션 디퓨전은 객체의 현재 위치에 가우시안 노이즈를 주입해 학습 시 다양한 위치 변동성을 경험하게 함으로써 모델의 일반화와 안정성을 높인다. 둘째, 궤적‑레벨 디노이징은 초기 예측 궤적에 임의의 오프셋을 추가하고, 반복적인 정제 과정을 통해 최종 궤적을 미세 조정한다. 이 iterative refinement는 이고‑쿼리를 지속적으로 업데이트하면서 레퍼런스 라인을 재계산하고, 최종 궤적이 의도와 충돌 회피 조건을 동시에 만족하도록 만든다.
실험 결과는 설득력 있다. nuScenes와 Bench2Drive 두 데이터셋에서 UniAD 대비 평균 L2 오류를 59 % 줄였으며, 충돌률을 92 % 감소시켰다. 또한 전체 파이프라인의 FLOPs와 메모리 사용량을 크게 낮춰, UniAD 대비 6.9배 빠른 추론 속도를 기록했다. 이는 희소 표현과 이고‑중심 선택 메커니즘이 실제 자율주행 시스템에 적용될 때 효율성과 안전성을 동시에 향상시킬 수 있음을 증명한다.
전반적으로 EgoFSD는 “희소 + 이고‑중심”이라는 두 축을 결합해, 기존의 밀집 BEV 기반 모델이 갖는 비효율성을 근본적으로 탈피하고, 인간 운전자의 주시 메커니즘을 모델링함으로써 플래닝 정확도와 실시간성을 크게 개선한 혁신적인 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기