다중 로봇 플랫폼을 활용한 원격 트리아지 시스템: UAV‑UGV 협업과 기반 모델 통합

다중 로봇 플랫폼을 활용한 원격 트리아지 시스템: UAV‑UGV 협업과 기반 모델 통합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 DARPA 트리아지 챌린지를 위해 개발된 이종 UAV‑UGV 팀을 소개한다. UAV가 광역에서 희생자를 탐지·위치추정하고, UGV가 현장에 도착해 온보드 센서와 파인‑튜닝된 비전‑언어 모델(VLM) 등 기반 모델을 활용해 심박·호흡, 부상 정도, 의식 상태 등을 측정·분류한다. 모듈식 Docker‑ROS 구조와 MOCHA 분산 데이터베이스를 통해 통신 불안정 상황에서도 데이터 전송을 보장한다. 시스템은 낮·밤 모두 작동 가능하도록 HDR·LWIR 처리와 저조도 카메라를 사용한다.

상세 분석

이 논문은 재난 현장에서 인간 구조대원의 위험을 최소화하고, 대규모 인명 피해 상황에서 신속하고 정확한 1차 트리아지를 수행하기 위한 전체 파이프라인을 제시한다. 첫 번째 핵심은 이종 로봇 팀의 설계이다. 고고도 비행이 가능한 Falcon 4 UAV는 673 mm 퀵드론 형태로 NVIDIA Jetson Orin NX와 FLIR Blackfly‑S RGB, Boson+ LWIR 카메라를 탑재해 낮·밤 모두 실시간 희생자 탐지를 수행한다. YOLOv8 기반의 RGB와 LWIR 전용 탐지 모델을 각각 파인‑튜닝했으며, 14‑bit IR 데이터를 8‑bit으로 정규화 후 CLAHE 전처리를 적용해 검출 정확도를 높였다. 탐지된 2D 바운딩 박스는 UAV의 GPS·IMU·카메라 내·외부 파라미터를 이용해 3D 세계 좌표로 역투영하고, 지면 평면과 교차시켜 희생자 위치를 추정한다. 시간적 클러스터링을 통해 동일 희생자를 식별하고, 지속적인 UAV 비행 중에도 위치 정보를 업데이트한다는 점이 실시간 상황 인식에 큰 장점을 제공한다.

두 번째 핵심은 UGV 측의 정밀 트리아지이다. Clearpath Jackal에 AMD Ryzen 7 8700G와 RTX 4000 GPU를 장착해 고성능 연산을 수행한다. 온보드 센서는 RGB·LWIR 카메라, 이벤트 카메라, Acconeer 및 TI IWR6843 레이더, 스피커·마이크 등이다. 심박·호흡 측정은 레이더와 이벤트 카메라에서 얻은 시계열 데이터를 10‑15 초 구간 수집 후, 신경망 기반 혹은 전통적인 신호 처리 파이프라인을 적용한다. 특히 레이더 신호는 FMCW 방식으로 체표면 미세 변동을 포착해 호흡 주기를 추정하고, 이벤트 카메라는 움직임 기반으로 심박을 검출한다.

부상 분류와 정신 상태 평가는 파인‑튜닝된 비전‑언어 모델(VLM)과 DINO 기반 이미지 분류기를 활용한다. 다중 뷰 이미지와 음성(마이크) 데이터를 입력으로, VLM은 “피부 출혈”, “골절 의심” 등 구체적인 부상 라벨을 예측하고, 동시에 자연어 설명을 생성해 구조대에게 시각적·언어적 정보를 제공한다. 이는 기존 연구에서 부상 인식만을 다루던 것과 달리, 정량적 라벨링과 정성적 설명을 동시에 제공한다는 점에서 혁신적이다.

소프트웨어 아키텍처는 Docker와 ROS2 기반의 모듈식 설계로, 각 알고리즘을 독립 컨테이너로 구현하고 환경 변수로 손쉽게 활성·비활성화한다. 오케스트레이터는 각 컨테이너의 결과를 “스코어카드” 형태로 집계하고, MOCHA 분산 데이터베이스에 저장한다. MOCHA는 연결이 불안정한 상황에서도 데이터가 로컬에 보관되었다가 라디오 링크가 회복되면 자동 동기화되도록 설계돼, 실시간 데이터 손실을 최소화한다.

사용자 인터페이스는 세 가지 레이어로 구성된다. 첫 번째는 Android 기반 Team Awareness Kit(TAK) 플러그인으로, 지도 위에 로봇·희생자 위치와 트리아지 심각도 아이콘을 실시간 표시한다. 두 번째는 웹 기반 FastAPI 서버를 통한 실시간 영상 스트리밍 및 제어 인터페이스이며, H.264 하드웨어 인코딩과 WebRTC 전송으로 저지연을 확보한다. 세 번째는 베이스스테이션에서 전체 로봇 상태와 센서 헬스, DARPA 채점 서버와의 HTTP 상태를 모니터링하는 대시보드다.

전체 시스템은 낮·밤, GPS·IMU·비전·레이다 등 다양한 센서 융합을 통해 1차 트리아지의 네 가지 핵심 요소(희생자 위치, 활력징후, 부상 정도, 의식 상태)를 자동화한다. 특히 기반 모델(VLM)의 활용은 기존 규칙 기반 혹은 단일 모달 접근법에 비해 확장성·일반화 능력이 뛰어나, 새로운 부상 유형이나 환경 변화에도 빠르게 적응할 수 있다. 다만 레이더와 이벤트 카메라의 실시간 처리 부하, UAV‑UGV 간 협업 시 통신 지연, 그리고 대규모 재난 현장에서의 전력·배터리 관리 등 실용화 단계에서 해결해야 할 과제도 남아 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기