다중 에이전트 협업 인식을 위한 동적 전문가 혼합 모델 CoBEVMoE
초록
CoBEVMoE는 BEV 공간에서 다중 차량의 이질적인 관측을 효과적으로 융합하기 위해 동적 Mixture‑of‑Experts(DMoE)와 전문가 간 다양성을 촉진하는 Dynamic Expert Metric Loss(DEML)를 도입한 프레임워크이다. 각 에이전트의 특징을 기반으로 전문가 커널을 동적으로 생성하고, 게이팅 메커니즘으로 신뢰도와 보완성을 고려해 가중합한다. OPV2V와 DAIR‑V2X‑C 데이터셋에서 기존 중간 융합 방법들을 능가하며, 카메라 기반 BEV 세그멘테이션 IoU를 1.5 %·LiDAR 기반 3D 검출 AP@0.5를 3.0 % 향상시켰다.
상세 분석
본 논문은 협업 인식에서 에이전트 간 시점·위치 차이로 인한 관측 이질성을 ‘특징 다양성’으로 정의하고, 이를 기존의 ‘유사성 중심’ 융합이 간과한다는 점을 지적한다. 이를 해결하기 위해 제안된 CoBEVMoE는 두 가지 핵심 모듈, 즉 Dynamic Mixture‑of‑Experts(DMoE)와 Dynamic Expert Metric Loss(DEML)로 구성된다. DMoE는 각 에이전트의 BEV 피처를 입력으로 받아 MLP‑Deconv 구조를 통해 동적으로 3×3 컨볼루션 커널을 생성한다. 이렇게 생성된 커널은 해당 에이전트 전용 ‘전문가’ 역할을 수행하며, 전통적인 MoE가 사전 정의된 고정 파라미터를 갖는 것과 달리 입력‑조건부로 파라미터가 변한다는 점에서 차별화된다. 전문가들의 출력은 전역 평균 풀링 후 Gate 네트워크가 계산한 소프트맥스 가중치 α에 의해 가중합되며, 마스크 M을 통해 통신 불가능하거나 신뢰도가 낮은 에이전트를 자동으로 배제한다. 이러한 게이팅 메커니즘은 ‘신뢰도 기반 선택’과 ‘보완성 강조’를 동시에 달성한다.
다음으로 DEML은 전문가 간 표현의 중복을 억제하고, 각 전문가가 fused feature와는 가까우면서 서로는 멀어지도록 유도한다. 구체적으로, 각 전문가 출력 ei와 최종 융합 표현 Ffused 사이의 유사성을 최소화하는 L2 거리 항을 최소화하고, 서로 다른 전문가 쌍 (ei, ej) 사이의 코사인 유사도를 최소화하는 마진 기반 손실을 추가한다. 이는 전문가가 서로 다른 시점·관측에서 유용한 정보를 추출하도록 강제함으로써, ‘다양성‑일관성 트레이드오프’를 효과적으로 관리한다.
실험에서는 OPV2V(카메라)와 DAIR‑V2X‑C(LiDAR) 두 도메인에서 기존 최첨단 모델(V2VNet, CoBEVT, AttFusion 등) 대비 일관된 성능 향상을 보였다. 특히, 시점 차이가 큰 상황에서 한 에이전트만이 관측한 객체를 놓치지 않고 정확히 세그멘테이션·검출하는 사례가 Figure 1에 제시되어, 제안 모델이 ‘특징 이질성’까지 활용함을 시각적으로 입증한다.
한계점으로는 (1) 전문가 수가 에이전트 수와 동일하게 스케일링되므로, 대규모 차량 군집(수십~수백대)에서는 메모리·연산 비용이 급증할 가능성이 있다. (2) 동적 커널 생성 과정이 MLP‑Deconv에 의존하므로, 입력 피처의 품질에 크게 좌우될 수 있다. (3) 현재는 중앙집중식 aggregator를 가정했지만, 실제 V2X 환경에서는 분산형 혹은 피어‑투‑피어 방식이 요구될 수 있다. 향후 연구에서는 전문가 파라미터 공유·프루닝, 라우팅 효율화, 그리고 완전 분산형 DMoE 설계가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기