도시 주행 인식을 위한 실시간 멀티태스크 네트워크 AurigaNet

도시 주행 인식을 위한 실시간 멀티태스크 네트워크 AurigaNet
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AurigaNet은 객체 검출, 차선 검출, 주행 가능 영역 인스턴스 분할을 하나의 통합 모델로 수행하는 실시간 멀티태스크 네트워크이다. BDD100K 데이터셋으로 학습·평가했으며, 주행 가능 영역 IoU 85.2 %, 차선 IoU 60.8 %, 객체 검출 mAP 47.6 %를 달성한다. 변형 가능한 컨볼루션과 구별 손실을 도입해 인스턴스 구분을 강화하고, Jetson Orin NX와 같은 임베디드 보드에서도 실시간 추론이 가능함을 보였다.

상세 분석

본 논문은 자율주행 차량의 인식 파이프라인을 경량화하면서도 고성능을 유지하기 위한 멀티태스크 학습 접근법을 제시한다. 핵심 아이디어는 단일 백본(CSPDarknet)과 FPN‑SPPF 기반의 neck을 공유하고, 세 개의 전용 디코더를 통해 객체 검출, 차선 검출, 주행 가능 영역 인스턴스 분할을 동시에 수행하는 것이다. 특히 주행 가능 영역을 단순한 의미론적 분할이 아니라 인스턴스 수준으로 구분함으로써 경로 계획 단계에서 개별 자유 공간을 명확히 식별할 수 있다. 이를 위해 두 가지 기술적 기여가 있다. 첫째, 변형 가능한 컨볼루션(deformable convolution)을 이용해 불규칙한 차선 곡선과 자유 공간 경계에 맞게 receptive field를 동적으로 조정한다. 이는 기존 고정 격자 기반 컨볼루션이 복잡한 도로 형태를 포착하는 데 한계가 있던 문제를 완화한다. 둘째, 구별 손실(discriminative loss)을 적용해 인스턴스별 특징 임베딩을 학습한다. 이 손실은 동일 인스턴스 내 특징을 응집시키고, 서로 다른 인스턴스 간 거리를 확대함으로써 후처리 없이도 픽셀 수준에서 인스턴스 라벨을 구분한다. 결과적으로 클러스터링 기반 후처리(DBSCAN 등)의 높은 연산 비용과 불확실성을 제거한다.

학습 손실은 객체 검출(L_box, L_obj, L_class), 주행 가능 영역(Dice + BCE) 및 임베딩 구별 손실, 차선 검출(BCE)으로 구성되며, 각각 가중치 γ₁, γ₂, γ₃로 조정한다. 이러한 다중 손실 설계는 각 태스크의 특성을 반영하면서도 전체 모델이 균형 있게 최적화되도록 한다.

성능 평가에서는 BDD100K의 다양한 날씨·조명·도로 상황을 포함한 테스트 셋에서 주행 가능 영역 IoU 85.2 %(경쟁 모델 대비 +0.7 %), 차선 IoU 60.8 %(동일 분야 최고 수준, 기존 모델 대비 30 % 이상 향상), 객체 검출 mAP@0.5:0.95 47.6 %(전 모델 대비 +2.9 %)를 기록했다. 특히 차선 IoU가 크게 개선된 점은 변형 가능한 컨볼루션이 복잡한 차선 형태를 효과적으로 포착했기 때문으로 해석된다.

실시간성 측면에서는 Jetson Orin NX에서 30 FPS 이상을 유지하며, 메모리 사용량과 전력 소비도 임베디드 ADAS 수준에 적합하도록 설계되었다. 이는 백본 선택(CSPDarknet)과 경량화된 neck, 그리고 효율적인 디코더 구조가 결합된 결과이다.

한계점으로는 현재 RGB 이미지만을 입력으로 사용해 라이다·레이다와 같은 보조 센서 정보를 활용하지 않았으며, 인스턴스 분할의 정밀도가 복잡한 교차로나 고밀도 차량 환경에서 다소 감소할 가능성이 있다. 향후 연구에서는 멀티모달 센서 융합과 더 정교한 인스턴스 추적 메커니즘을 도입해 이러한 약점을 보완할 수 있다.

전반적으로 AurigaNet은 멀티태스크 학습과 인스턴스 수준 분할을 결합한 실용적인 솔루션으로, 비용 효율적인 카메라 기반 ADAS부터 고성능 자율주행 플랫폼까지 폭넓은 적용 가능성을 보여준다.


댓글 및 학술 토론

Loading comments...

의견 남기기