첫 구조대 제스처 데이터셋 FR GESTURE 발표
초록
본 논문은 재난 현장 구조대가 무인 지상 차량(UGV)을 손동작으로 제어할 수 있도록 설계된 RGB‑D 제스처 데이터셋 FR‑GESTURE를 소개한다. 12개의 실무 기반 제스처와 3312개의 RGB‑D 이미지 쌍을 2개의 카메라 시점·7개의 거리·3개의 환경에서 수집했으며, 균등 클래스 분포와 주제 독립·전체 균일 두 가지 평가 프로토콜을 제시한다. ResNet‑18, ResNet‑50, ResNeXt‑50을 이용한 베이스라인 실험 결과를 공개함으로써 향후 연구의 기준점을 제공한다.
상세 분석
FR‑GESTURE 데이터셋은 구조대 현장의 실제 요구를 반영한 12가지 제스처를 정의하고, 각 제스처마다 “오게 해라”, “도움이 필요해”, “정지”, “긴급 상황” 등 구체적인 UGV 명령을 매핑한다는 점에서 독창적이다. 제스처 선정 과정은 기존 구조대 손신호와 전술 신호를 기반으로 하며, 현역 구조대원 7명의 피드백을 통해 반복 검증·수정하였다. 데이터 수집은 Intel RealSense D415 RGB‑D 카메라 두 대를 서로 다른 높이와 각도로 배치해 480×640 해상도로 진행했으며, 거리 변화를 1 ~ 7 m 7단계로 설정해 인식 거리 변화에 대한 강인성을 확보했다. 실내·실외 3개 씬에서 7명의 피험자가 각 제스처를 6~7거리에서 수행하도록 하여, 총 3312개의 RGB‑D 쌍을 확보하였다.
데이터는 클래스 불균형을 방지하기 위해 각 제스처가 동일한 샘플 수를 갖도록 설계되었으며, CSV 메타데이터에 피험자 ID, 거리, 씬, 카메라 시점 등을 기록해 재현성을 높였다. 또한 부분 가림·모션 블러와 같은 현장 노이즈를 의도적으로 포함시켜 실제 적용 시 발생할 수 있는 어려움을 미리 반영했다.
평가 프로토콜은 (1) 전체 데이터를 무작위로 균등하게 섞어 5‑fold 교차 검증을 수행하는 “Uniform” 방식과, (2) 특정 피험자를 테스트 셋에 배제하고 나머지 피험자들로 학습하는 “Subject‑Independent” 방식으로 정의하였다. 이는 모델이 새로운 사용자를 맞닥뜨렸을 때의 일반화 능력을 측정하도록 설계된 것이다.
베이스라인 실험에서는 ResNet‑18, ResNet‑50, ResNeXt‑50 세 가지 2D CNN을 사용했으며, 입력으로는 RGB 이미지와 깊이 이미지를 각각 별도 채널로 처리하거나, 두 모달리티를 단순히 concatenate 하는 방식을 적용했다. 결과는 전체 정확도 92.3 % (Uniform)와 84.7 % (Subject‑Independent) 수준으로, 특히 깊이 정보를 포함했을 때 인식 정확도가 눈에 띄게 향상됨을 확인했다. 그러나 모델 규모가 커질수록 데이터 양 대비 과적합 위험이 커지는 점을 지적하며, 향후 경량화 모델이나 멀티‑모달 트랜스포머 기반 접근법이 필요함을 제안한다.
관련 연구와 비교했을 때, 기존 UGV 제스처 데이터셋인 URGR은 350K 샘플을 보유하지만 명령 종류가 5개에 불과하고, 대부분 UAV 전용 신호에 기반한다. 반면 FR‑GESTURE는 구조대 특화 명령 12개와 RGB‑D 멀티‑모달을 제공함으로써 실제 재난 현장 적용 가능성을 크게 높인다. 또한 공개 여부와 메타데이터 제공 측면에서도 기존 데이터셋보다 투명하고 재현 가능한 연구 환경을 조성한다.
한계점으로는 피험자 수가 7명에 머물러 있어 대규모 인구통계적 다양성을 포괄하지 못한다는 점, 정적인 제스처만을 다루어 연속 동작 인식에는 적용이 제한된다는 점을 들 수 있다. 또한 카메라가 고정된 위치에서 촬영했기 때문에 이동 로봇에 부착된 카메라 시점 변화에 대한 추가 연구가 필요하다.
요약하면, FR‑GESTURE는 구조대 현장에 최적화된 제스처‑명령 매핑, 거리·환경 다양성, RGB‑D 멀티‑모달, 명확한 평가 프로토콜을 갖춘 최초의 공개 데이터셋으로, 향후 HRI, 로봇 제어, 멀티‑모달 학습 연구에 중요한 기반이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기