다양한 임베디드 에이전트를 위한 데이터 관리 허브 HeteroHub
HeteroHub는 정적 메타데이터, 작업‑연계 학습 데이터, 실시간 센서 스트림을 하나의 통합 프레임워크로 결합해 이기종 임베디드 에이전트 시스템의 데이터 수집·관리·활용 전 과정을 지원한다. 정적 지식 허브, 학습 데이터 패브릭, 실행 데이터 스트림 매니저라는 3계층 구조를 통해 작업‑중심의 데이터 연계, 모델 라이브러리와 환경 정보의 URI 기반 연결, 그리고 실시간 피드백에 기반한 폐쇄‑루프 제어를 구현한다. 캠퍼스 물류 시연을 통해 다…
저자: Xujia Li, Xin Li, Junquan Huang
본 논문은 이기종 임베디드 에이전트 시스템(Multi‑Embodied Agent System)에서 발생하는 데이터 이질성 문제를 해결하기 위한 통합 데이터 관리 프레임워크인 HeteroHub를 제안한다. 기존 연구들은 개별 데이터 유형(정적 메타데이터, 학습 데이터, 실시간 센서 스트림)만을 다루거나, 시뮬레이션 환경에 국한된 경우가 많아 실제 현장 배치를 지원하기에 부족했다. HeteroHub는 이러한 한계를 극복하고자 세 가지 핵심 레이어를 설계한다.
1. **Static Information Hub (SI‑Hub)**
- **Agent Profiles**: 각 에이전트의 물리적 사양(자유도, 센서 구성, 기능)과 지원 가능한 작업을 상세히 기록한다.
- **Task Graph**: 작업을 노드와 에지로 표현한 유향 속성 그래프이며, 노드는 입력·출력 스키마, 요구 능력, 성공 기준을 포함한다. 에지는 순차·병렬·조건부 의존성을 정의한다.
- **Model Library**: perception, planning, control, language grounding 등 다양한 AI 모델의 메타데이터(입출력 모달리티, 성능 지표, 버전, 연관 작업)를 저장하고, 실제 모델 파일은 외부 스토리지에 URI만 보관한다.
- **Environment Information**: 디지털 맵(포인트 클라우드, occupancy grid, semantic map)과 정적·동적 객체 정보를 포함한다.
이 네 모듈은 전역 고유 URI를 통해 서로 연결되며, “어떤 에이전트가 환경 E₁에서 작업 T₁을 수행할 수 있는가?”와 같은 복합 질의를 한 번에 처리한다.
2. **Embodied AI Training Data Fabric (ETDF)**
- **Task‑Aligned Speech Corpus**: 음성·텍스트·인텐트 삼중항을 작업 컨텍스트와 연결한다. Whisper 기반 ASR과 BERT 기반 NLU 모델 학습에 활용된다.
- **Reasoning‑Based Workflow Dataset**: LLM이 생성한 체인‑오브‑씽크와 성공·실패 플랜을 쌍(pair)으로 저장한다. 자동 파이프라인은 (① 서브그래프 추출 → ② 복합 오류 주입 → ③ 하이브리드 심볼릭‑시맨틱 검증) 과정을 거쳐 물리·동작 제약을 정량화한 페널티 점수를 부여한다. 이 점수는 DPO 학습 시 정렬 마진을 동적으로 조정하는 데 사용된다.
- **Vision‑Centric Perception Dataset**: RGB·Depth 이미지와 객체·세그멘테이션 라벨을 작업‑별·객체‑별로 계층화하여 저장한다. 카메라 내재 파라미터와 씬 컨텍스트를 보존해 geometry‑aware 학습과 도메인 적응을 지원한다.
모든 샘플은 작업 그래프 노드와 1:1 매핑되어 “작업‑중심 데이터”라는 일관된 구조를 만든다. 이는 모델 학습 시 데이터 선택·필터링을 자동화하고, 새로운 작업이 추가될 때 기존 데이터 재활용을 용이하게 만든다.
3. **Execution Data Stream Manager (EDSM)**
- **Point Cloud Stream**: LiDAR·Depth 카메라에서 실시간 포인트 클라우드를 받아 edge‑SLAM으로 로컬라이제이션·장애물 회피를 수행하고, 결과를 중앙 태스크 모니터에 피드백한다.
- **Vision Stream**: 프레임을 edge‑GPU에서 YOLO·DINOv2 등 경량 모델에 입력하고, 작업‑관련 프레임만 중앙에 전송한다. 2D 바운딩 박스를 3D 공간에 투사해 grasp planning에 활용한다.
- **Dynamics & Proprioception Stream**: 관절 엔코더, IMU, 토크 센서 등 고주파 데이터를 cerebellum 모델에 실시간 공급해 상태 추정·안전 제약(토크 한계, 균형) 모니터링을 수행한다.
EDSM은 센서 데이터를 “태스크‑구동 시맨틱 신호”로 변환해, 현재 실행 중인 서브‑태스크에 맞는 파이프라인을 동적으로 활성화한다. 중앙 **Context‑Aware Task Monitor**는 스트림 피드백을 종합해 서브‑태스크 완료 여부를 판단하고, 계획 위배가 감지되면 즉시 대형 추론 모델에 재계획을 요청한다.
**시연**
스마트 캠퍼스 물류 시나리오에서 HeteroHub는 다음과 같은 흐름을 구현한다.
1. 사용자가 “스타벅스에서 커피를 가져와”라고 음성 명령 → Speech Corpus → ASR·NLU → 의도 파싱 → Brain(대형 추론 모델)에게 전달.
2. Brain은 Task Graph를 탐색해 “엘리베이터 이동 → 엘리베이터 호출 → 스타벅스 이동 → 커피 잡기 → 로봇 개에게 전달 → 배송” 등 6개의 서브‑태스크로 분해하고, 각 태스크에 적합한 에이전트와 모델을 매핑한다.
3. Chassis Agent는 SI‑Hub에서 환경 맵을 받아 SLAM 기반 자율 주행으로 엘리베이터까지 이동한다.
4. Vision Stream을 통해 엘리베이터 버튼을 실시간 검출하고, Arm Agent가 버튼을 눌러 엘리베이터를 호출한다.
5. 내부 이동·도착 후, Vision‑Centric 모델이 커피 컵을 인식·그립하고, 로봇 개(다중 모빌리티 에이전트)가 커피를 운반한다.
6. 모든 단계에서 EDSM이 제공하는 센서 피드백이 Task Monitor에 전달되어, 계획 위배(예: 장애물 충돌, 그립 실패)가 감지되면 즉시 재계획이 이루어진다.
**핵심 기여**
- 작업‑정렬 데이터 구조와 URI 기반 메타데이터 설계로 이기종 에이전트·모델·환경 간의 일관된 연계성을 확보.
- 자동 부정‑샘플 생성·정량적 페널티 스코어링을 통해 물리·동작 제약을 학습 목표에 직접 반영, DPO 기반 정책 미세조정이 가능하도록 함.
- 실시간 스트림을 태스크 상태와 연동시켜 폐쇄‑루프 제어를 구현, 안전·적응성을 크게 향상.
- 실제 로봇·드론·소형 로봇이 협업하는 물류 시연을 통해 프레임워크의 확장성·유지보수성을 실증.
결론적으로 HeteroHub는 데이터 중심 설계가 복합 임베디드 AI 시스템의 전반적인 라이프사이클(데이터 수집·정제·학습·배포·실시간 운영)을 통합 관리함으로써, 시스템의 확장성, 유지보수성, 진화 가능성을 크게 증진시킨다. 향후 연구에서는 자동 메타데이터 진화, 멀티‑도메인 전이 학습, 그리고 클라우드‑엣지 하이브리드 배포 전략을 추가해 더욱 포괄적인 데이터 관리 생태계를 구축할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기