협업 인식을 위한 협상 기반 공통 표현 프레임워크

협업 인식을 위한 협상 기반 공통 표현 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

NegoCollab은 이질적인 센서와 모델을 가진 에이전트들이 중간 특징을 공유할 때 발생하는 도메인 격차를 최소화하기 위해, 각 에이전트의 로컬 표현을 기반으로 협상(Negotiator) 과정을 통해 공통 표현을 생성한다. 송신‑수신 모듈과 다중 차원 정렬 손실(분포, 구조, 실용)로 학습을 지도하여, 기존 방법보다 낮은 학습 비용으로 이질 협업 인식 성능을 크게 향상시킨다.

상세 분석

NegoCollab은 이질적인 협업 인식 환경에서 가장 핵심적인 문제인 ‘불변 이질성(immutable heterogeneity)’을 해결하기 위해 두 단계의 혁신적인 설계를 도입한다. 첫 번째는 ‘협상자(Negotiator)’이다. 기존 연구는 특정 에이전트의 표현을 공통 표현으로 지정했지만, 이는 도메인 차이가 큰 에이전트와의 정렬을 어렵게 만든다. NegoCollab은 모든 모달리티의 로컬 표현을 입력으로 받아, 피라미드 구조와 가중치 추정기(estimator)를 통해 각 레벨별 기여도를 학습하고, 이를 가중 평균하여 다중 모달 정보를 포괄하는 공통 표현을 생성한다. 이렇게 생성된 공통 표현은 각 에이전트의 송신‑수신 파이프라인 사이에 위치해, 양방향 변환 과정에서 발생할 수 있는 정보 손실을 최소화한다.

두 번째 혁신은 ‘다중 차원 정렬 손실(Multi‑dimensional Alignment Loss)’이다. 단순히 평균과 분산을 맞추는 분포 정렬(loss)만으로는 구조적 차원(특징 맵의 공간적/채널적 관계)과 실제 downstream 태스크에 필요한 의미적 일관성을 보장하기 어렵다. 따라서 NegoCollab은 구조 정렬(structural alignment loss)과 실용 정렬(pragmatic alignment loss)을 추가한다. 구조 정렬은 송신 모듈이 만든 공통 표현과 협상자가 만든 공통 표현 사이의 공간적 패턴을 어텐션 매트릭스 혹은 코사인 유사도로 정렬하고, 실용 정렬은 최종 탐지/분류 결과와의 차이를 최소화하도록 설계된 태스크‑특화 손실을 포함한다. 이 세 손실을 동시에 최적화함으로써, 공통 표현에 내재된 다중 모달 지식이 송신 모듈에 완전하게 증류(distill)되고, 수신 모듈은 이를 로컬 표현으로 복원하면서도 도메인 격차를 효과적으로 해소한다.

또한, NegoCollab은 플러그‑앤‑플레이 방식의 송신‑수신 쌍을 각 에이전트에 삽입한다. 송신은 ConvNeXt 기반 재조합기와 축축합 어텐션 기반 정렬기로 구성돼 로컬 특징을 공통 공간으로 매핑하고, 수신은 동일한 어텐션 구조와 ConvNeXt 재조합기로 공통 특징을 로컬 공간으로 역변환한다. 이 과정에서 각 에이전트는 자신만의 센서·모델 특성을 유지하면서도, 협업 시에는 공통 표현을 통해 서로의 정보를 자유롭게 교환한다.

실험 결과는 NegoCollab이 기존의 1:1 도메인 어댑터 방식이나 특정 에이전트 기반 공통 표현 방식보다 높은 mAP와 NDS를 달성함을 보여준다. 특히, 도메인 차이가 큰 라이다·카메라 조합에서 성능 격차가 크게 줄어들어, 실제 자율주행 시나리오에서의 적용 가능성을 크게 높인다. 전체적으로 NegoCollab은 낮은 학습 비용, 높은 확장성, 그리고 이질성에 강인한 협업 인식 프레임워크로서, 차세대 멀티‑에이전트 인식 시스템에 중요한 전환점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기