유연한 카메라 구성을 위한 차세대 HD 맵 구축 FlexMap
초록
FlexMap은 캘리브레이션이 필요 없는 다중 카메라 입력을 받아, 명시적인 2D‑to‑BEV 변환 없이도 고정밀 HD 맵을 자동 생성한다. 기하학 인식 기반 트랜스포머와 시공간 분리 어텐션, 카메라 토큰 기반 디코더를 도입해 카메라 수와 배치가 달라져도 동일한 아키텍처로 학습·추론이 가능하며, 누락된 뷰나 센서 오류에도 강인한 성능을 보인다.
상세 분석
FlexMap은 기존 HD 맵 생성 파이프라인이 갖는 두 가지 근본적인 한계를 동시에 해소한다. 첫째, 캘리브레이션 의존성을 없애기 위해 명시적인 2D‑to‑BEV 투영 모듈을 배제하고, 대신 VGGT와 같은 기하학 인식 기반 Foundation Model을 활용한다. 이 모델은 이미지 패치를 토큰화하고, 교차 프레임 어텐션을 통해 암묵적으로 3D 구조를 학습한다는 점에서, 카메라 내부·외부 파라미터 없이도 뷰 간의 공간 관계를 파악한다. 둘째, 시공간 정보를 동일한 어텐션 블록에 혼합하는 대신, ‘Cross‑view Attention’과 ‘Temporal Attention’을 별도로 적용하는 Spatial‑Temporal Enhancement 모듈을 설계했다. 같은 타임스탬프의 여러 카메라 뷰는 공간적 상관관계를, 동일 카메라의 연속 프레임은 시간적 연속성을 각각 강화함으로써, 동적 객체와 정적 도로 구조를 효과적으로 구분한다.
디코더는 각 카메라에 대응하는 학습 가능한 ‘Camera Token’를 도입해, 뷰‑특화된 어텐션 스코프를 자동으로 조정한다. 이는 기존 BEV 기반 디코더가 특정 뷰 경계 근처에서 발생하는 정보 결핍 문제를 완화하고, 누락된 카메라가 있어도 남은 뷰의 토큰을 통해 충분히 BEV‑일관적인 폴리라인을 생성하도록 만든다. 실험에서는 nuScenes와 Argoverse 데이터셋을 활용해 6‑camera 전면·후면 조합, 1‑camera 단일 전면, 그리고 임의의 뷰 조합 등 다양한 설정에서 기존 MapTR·GeMap 대비 mAP와 IoU에서 평균 5~8%p 향상을 기록했다. 특히 캘리브레이션 오차를 인위적으로 주입했을 때 성능 저하가 미미했으며, 일부 뷰가 완전히 사라진 상황에서도 지도 품질이 크게 떨어지지 않았다.
한계점으로는 현재 Geometry Transformer가 정적 장면 재구성을 전제로 학습된 점을 들어, 급격한 조명 변화나 극단적인 움직임이 있는 경우 표현력이 감소할 수 있다. 또한, 카메라 토큰이 뷰별 통계에 의존하므로, 완전히 새로운 카메라 배치(예: 위쪽 고정 카메라)에서는 추가적인 미세조정이 필요할 가능성이 있다. 향후 연구에서는 동적 객체를 명시적으로 분리하는 모듈과, 토큰 기반 뷰 인코딩을 메타‑러닝 방식으로 일반화하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기