스마트 교통을 위한 예측형 의미 기반 V2X 충돌 예측 프레임워크
초록
본 논문은 도로변 RSU에 장착된 카메라가 V‑JEPA 모델을 이용해 미래 영상의 의미 임베딩을 생성하고, 이를 V2X 링크로 차량에 전송해 충돌 여부를 실시간 예측하는 시스템을 제안한다. 디지털 트윈 기반 데이터셋을 활용해 실험한 결과, 원시 영상 대비 전송량을 10⁴배 이상 감소시키면서 F1 점수를 8~10% 향상시켰다.
상세 분석
이 연구는 ITS 환경에서 대용량 영상 데이터를 그대로 전송하는 것이 통신 대역폭과 지연 제한에 부합하지 않음을 지적하고, 의미 기반 통신(SemComm)으로 전환하는 새로운 패러다임을 제시한다. 핵심 기술은 V‑JEPA(Video Joint Embedding Predictive Architecture)로, 기존 영상 예측 모델이 픽셀 수준의 프레임을 복원하는 데 반해, 이 모델은 마스크된 입력으로부터 미래 프레임의 임베딩을 직접 예측한다. 이를 위해 비디오를 시공간 패치 단위로 분할하고, 컨텍스트 인코더와 타깃 인코더가 각각 마스크된 토큰과 전체 토큰을 처리한다. L1 손실을 이용한 자기지도 학습으로 얻어진 임베딩은 시공간적 움직임과 차량 간 상호작용을 압축적으로 표현한다.
RSU에서는 사전 학습된 V‑JEPA 인코더를 고정하고, 얻게 된 토큰 시퀀스에 단일 쿼리 벡터를 이용한 크로스‑어텐션(attentive probe)을 적용한다. 이 과정은 가장 중요한 공간·시간 영역을 강조해 1×D 차원의 요약 벡터를 만든다. 차량 측에서는 이 벡터를 경량 선형 분류기에 입력해 충돌/안전 이진 판단을 수행한다. 따라서 차량은 고성능 GPU 없이도 실시간 추론이 가능하며, 전체 파이프라인의 연산 복잡도는 O(D² + DC) 수준에 머문다.
전송 효율 측면에서 원시 영상은 N·Ho·Wo·3 바이트(예: 30프레임, 720×1280) 규모인 반면, 의미 임베딩은 D·b 바이트(예: D=512, b=2)로 압축된다. 실험 결과 전송량 압축 비율 R이 10⁴~10⁵에 달했으며, 지연 요구사항을 충분히 만족한다.
데이터셋은 Quanser Interactive Labs(QLabs) 디지털 트윈을 활용해 4가지 교차로·라운드어바웃 시나리오에서 500개의 비디오 클립을 생성하고, YOLOv11 기반 후처리(히트맵, 이진 마스크, 하이브리드)로 관심 영역을 강조했다. 다양한 후처리 방식이 V‑JEPA 표현 품질에 미치는 영향을 비교했으며, 하이브리드 방식이 가장 높은 충돌 예측 정확도(92%)와 F1 향상(8~10%)을 기록했다.
한계점으로는 실제 도로 환경에서의 잡음·조명 변화, V2X 채널 오류, 그리고 V‑JEPA 모델의 대규모 사전 학습 비용이 있다. 향후 연구에서는 멀티‑RSU 협업, 비정형 교통 상황에 대한 일반화, 그리고 양자화·프루닝을 통한 임베딩 경량화 등을 탐색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기