자율주행을 위한 탈인과적 평생학습: 동적 지식 공간과 전방 문 조정의 융합
DeLL은 Dirichlet 과정 혼합 모델(DPMM)로 구성된 두 개의 동적 지식 공간(경로·특징)과 인과 추론의 전방-문(front‑door) 조정을 결합해, 자율주행(E2E‑AD) 시스템이 새로운 시나리오를 학습하면서도 기존 지식을 망각하지 않도록 설계된 프레임워크이다. 동적 클러스터링으로 지식 확장을 자동화하고, DPMM에서 추출한 지식 앵커를 매개변수(M)로 활용해 센서 노이즈 등 관측되지 않은 교란을 탈인과화한다. 또한 비자율형(no…
저자: Jiayuan Du, Yuebing Song, Yiming Zhao
본 논문은 End‑to‑End Autonomous Driving(E2E‑AD) 시스템이 평생학습 과정에서 겪는 ‘catastrophic forgetting’, ‘지식 전이 어려움’, 그리고 ‘관측되지 않은 교란에 의한 인과 혼란’이라는 세 가지 핵심 문제를 동시에 해결하기 위해 DeLL(Deconfounded Lifelong Learning) 프레임워크를 제안한다. DeLL은 크게 네 부분으로 구성된다.
1. **멀티모달 인식 백본**
최신 Transformer 기반 모델인 Transfuser++를 백본으로 채택해 RGB 이미지와 LiDAR 포인트 클라우드를 각각 RegNetY로 인코딩하고, 다중 스케일 교차‑주의를 통해 BEV(Bird’s‑Eye‑View) 특징 맵(F_bev)을 생성한다. 추가로 BEV 시멘틱 분할·객체 검출 보조 작업을 도입해 기하학적·시맨틱 경계를 명확히 한다. 이 BEV 특징은 11개의 학습 가능한 쿼리와 결합돼 256 차원의 압축된 장면 표현(F_fused)으로 변환된다.
2. **동적 이중 지식 공간**
- **Feature Knowledge Space(FKS)**: F_fused를 DPMM에 입력해 환경 특징을 클러스터링한다. 클러스터 중심을 ‘특징 앵커(A_feat)’로 저장하고, 클러스터 수 K_f는 데이터 흐름에 따라 자동으로 증가·축소된다. 이는 잠재적인 환경 토폴로지를 지속적으로 탐색하고, 새로운 시나리오가 등장하면 즉시 새로운 클러스터를 생성해 기존 지식을 보존한다.
- **Trajectory Knowledge Space(TKS)**: 전문가 트래젝터리 데이터를 DPMM으로 클러스터링해 물리적 행동 원형을 추출한다. 클러스터 중심을 ‘트래젝터리 앵커(A_traj)’로 저장하고, K_t 역시 동적으로 변한다. 이 공간은 실제 차량 동작(차선 변경, 급회전 등)의 사전 지식을 제공한다.
DPMM의 비모수 특성은 ‘클러스터 수를 미리 정의하지 않아도 된다’는 장점을 제공한다. 논문에서는 memoVB라는 온라인 변분 베이지안 방법을 사용해 대규모 데이터에서도 효율적인 posterior 추정을 수행한다.
3. **인과적 특성 강화 모듈**
전방‑문(front‑door) 조정 이론을 적용해 관측되지 않은 교란 U가 X→Y 경로에 미치는 편향을 제거한다. 여기서 매개변수 M은 바로 FKS와 TKS에서 얻은 앵커 집합이다.
- **Fused Feature Enhancement Module(FFEM)**: 입력 특징을 질의(Q)로, A_feat를 키(K)·값(V)로 삼아 교차‑주의를 수행한다. 이는 P(m|x) 를 근사해 현재 장면에 가장 적합한 과거 ‘인과 템플릿’을 찾는 과정이다. 이후 가중치 w를 학습해 원본 특징과 인과‑강화된 특징을 부드럽게 결합한다.
- **Trajectory Feature Enhancement Module(TFEM)**: FFEM 출력 중 트래젝터리와 관련된 부분을 선택하고, A_traj를 시계열 임베딩으로 변환해 교차‑주의와 게이팅을 재사용한다. 결과적으로 물리적 제약을 내재한 트래젝터리 특징(F_traj′)이 생성된다.
이 두 모듈은 동일한 ‘dual‑attention + gated‑fusion’ 구조를 공유함으로써 구현 복잡성을 낮추고, 인과‑강화가 전체 파이프라인에 일관되게 적용되도록 한다.
4. **진화형 트래젝터리 디코더**
기존 고정 채널 디코더는 평생학습 시 새로운 행동을 추가하기 어렵다. DeLL은 A_traj를 시계열 인코더에 입력해 동적으로 토큰 수를 조절하는 비자율형(non‑autoregressive) 디코더를 설계한다. 이렇게 하면 전체 트래젝터리를 한 번에 생성하면서도, DPMM이 제공하는 다양한 행동 원형을 자유롭게 조합할 수 있다.
5. **평생학습 평가 프로토콜**
Bench2Drive의 멀티‑클래스 시나리오를 기반으로, 시나리오 전환마다 Driving Score, Success Rate, Multi‑ability Success Rate 등을 측정한다. 기존 방법은 새로운 시나리오에 적응하면 이전 성능이 급락했지만, DeLL은 지식 앵커를 고정된 확률 분포로 보존해 catastrophic forgetting을 크게 완화한다.
**실험 결과**
CARLA 시뮬레이터에서 10개 이상의 연속 시나리오(날씨·교통·도로 유형 다양)로 구성된 평생학습 테스트를 수행했다. DeLL은 평균 Driving Score를 12% 이상 향상시켰으며, 이전 시나리오에 대한 성공률은 85% 이상 유지했다. 특히, 센서 노이즈와 급격한 환경 변화가 발생했을 때도 전방‑문 조정 덕분에 정책의 인과적 일관성이 유지되어 안전한 주행이 가능했다.
**기여 및 향후 연구**
- 비모수 DPMM을 이용한 동적 지식 공간으로 평생학습 시 ‘지식 용량’ 문제를 근본적으로 해결.
- 전방‑문 조정을 신경망 파이프라인에 자연스럽게 통합해 관측되지 않은 교란에 강인한 인과‑정확한 정책 학습.
- 비자율형 진화형 디코더로 행동 원형을 자유롭게 조합, 실시간 계획 효율성 확보.
향후 연구에서는 DPMM의 클러스터링 효율성을 높이기 위한 변분 추정(VI) 기법, 대규모 언어 모델과의 연계, 그리고 실제 도로 데이터에 대한 온라인 적응 테스트 등을 통해 DeLL의 실용성을 더욱 확대할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기