비전 기반 자율주행의 OOD 강인성, 숫자가 아닌 함수로 본다

비전 기반 자율주행의 OOD 강인성, 숫자가 아닌 함수로 본다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자율주행 시뮬레이션 VISTA에서 환경을 장면·계절·날씨·시간·에이전트 5가지 축으로 분해하고, 정확히 k(0 ~ 3)개의 축이 변하는 OOD 테스트를 수행한다. 동일한 학습 예산 하에 FC, CNN, ViT 백본을 비교하고, DINO·CLIP·BLIP‑2 기반 고정된 파운데이션 모델(FM) 특징을 이용한 경량 ViT 헤드를 추가 실험한다. 결과는 ViT가 CNN/FC보다 OOD에 강하고, FM 특징을 사용하면 85% 이상 성공률을 유지하지만 지연이 늘어난다. 시간·날씨·장면 변환이 가장 큰 성능 저하를 일으키며, 요인 간 상호작용은 가산적이지 않다. 데이터 규모·다양성, 겨울·눈 훈련, 다중 ID 환경 등이 OOD 강인성을 향상시킨다.

상세 분석

이 연구는 “OOD를 하나의 숫자로 평가한다”는 기존 관행을 탈피해, 환경 변수를 체계적으로 팩터화하고 k‑factor OOD 셸을 정의함으로써 강인성을 함수 형태로 시각화한다. 실험 설계는 크게 네 가지 축을 사용했는데, 장면(농촌/도시), 계절(봄·여름·가을·겨울), 날씨(건조·비·눈), 시간(낮·밤), 그리고 에이전트 혼합(차량·보행자·동물)이다. 각 축을 독립적으로 변형하거나 조합해 1, 2, 3축 변화를 만든 뒤, 동일한 시드와 경로에서 폐쇄‑루프 제어 성능을 측정했다.

아키텍처 비교에서는 동일 파라미터 수와 학습 예산을 맞춘 FC, CNN, ViT를 테스트했으며, ViT가 가장 높은 OOD 성공률을 보였다. 특히 FM 특징(DINO, CLIP, BLIP‑2)을 고정하고 경량 ViT 헤드만 학습한 모델은, 스크래치 학습 대비 평균 79%p(percentage point) 상승했지만, 추론 지연이 3040 ms 정도 증가했다. 이는 고차원 시각 의미가 조명·날씨 변동에 강인함을 제공하지만, 실시간 제어에서는 트레이드오프가 필요함을 의미한다.

시간적 컨텍스트(멀티프레임) 실험에서는 ViT‑Temporal과 R‑CNN‑Temporal을 도입했지만, 단일 프레임 ViT가 가장 높은 베이스라인을 유지했다. 이는 짧은 히스토리가 날씨·조명 변화와 같은 시각적 변동을 충분히 보완하지 못한다는 점을 시사한다.

요인별 영향 분석에서는 ‘농촌→도시’와 ‘낮→밤’ 전환이 각각 약 31%p의 큰 성능 저하를 일으켰으며, 에이전트 교체는 10%p, 중간 강수는 7%p 정도 감소했다. 계절 변동은 경우에 따라 급격히 떨어질 수 있었으며, 특히 ‘밤+눈’ 조합은 개별 요인보다 더 큰 손실을 보여 비가산적 상호작용을 확인했다.

데이터 측면에서는 겨울·눈 조건에서 훈련된 모델이 단일 요인 변동에 가장 강인했으며, 농촌+여름 조합이 전체 OOD 성능을 최적화했다. 트레이스(시점) 수를 5→14개 늘리면 평균 11.8 p 상승했으며, 이는 스케일링이 강인성을 향상시키는 한편, 어려운 조건을 목표로 한 커리큘럼이 스케일링을 대체할 수 있음을 보여준다. 또한, 다중 ID 환경(여러 장면·계절·시간을 포함)으로 학습하면 특정 OOD(도시)에서 60.6%→70.1%로 개선되지만, 단일 ID에 비해 약간의 ID 성능 감소가 발생한다. 이는 다양성이 일반화에 기여하지만 특화된 도메인에서는 최고 성능을 놓칠 수 있음을 의미한다.

전체적으로 이 논문은 OOD 강인성을 “k‑factor 함수”로 정의하고, 아키텍처, 파운데이션 특징, 시간적 입력, 데이터 규모·다양성 등 여러 설계 선택이 어떻게 상호작용하는지를 정량화했다. 실무에서는 ViT + FM 특징을 기본으로 채택하고, 시간·날씨·장면 변화를 균형 있게 포함한 데이터 커리큘럼을 설계하며, 필요 시 스케일링 대신 어려운 조건에 집중하는 전략을 사용할 것을 권고한다.


댓글 및 학술 토론

Loading comments...

의견 남기기