우주선 실시간 분할을 위한 대규모 데이터셋과 온보드 벤치마크
초록
본 논문은 실제와 합성 배경을 결합해 6만 4천 장 규모의 우주선 이미지와 픽셀 수준 마스크를 제공하는 SWiM 데이터셋을 소개한다. 4코어 CPU와 4 GB 이하 RAM 환경에서 YOLOv8·YOLOv11을 fine‑tuning하여 Dice 0.92, Hausdorff 0.69, 추론 0.5 s 성능을 달성했으며, 하드웨어·시간 제약을 명시한 벤치마크를 제시한다.
상세 분석
SWiM 데이터셋은 기존 PoseBowl·Spacecrafts 데이터의 한계를 극복하기 위해 두 단계 합성 방식을 채택했다. 첫 번째 단계에서는 기존 이미지에 Segment Anything Model 2(SAM 2)를 적용해 자동으로 픽셀 마스크를 생성하고, 모든 마스크를 하나의 폴리곤 형태로 통합했다. 두 번째 단계에서는 NASA TT ALOS 파이프라인과 Stable Diffusion을 활용해 3D 모델을 다양한 조명·포즈로 렌더링하고, 실제 위성 사진·합성 배경에 슈퍼임포즈했다. 여기에는 글레어, 블러, 노이즈, 노출 변동 등 카메라 왜곡을 모사한 고급 augmentation이 포함돼 실제 운용 환경을 정밀히 재현한다. 데이터는 베이스라인과 증강 버전 두 가지로 제공되며, 학습·검증·테스트가 사전 분할돼 재현성을 높인다.
하드웨어 제약을 명시적으로 정의한 점이 독창적이다. 4코어 CPU와 4 GB RAM 이하, 추론 시간 < 0.95 s라는 제한은 현재 NASA 인스펙터 위성의 온보드 컴퓨터 사양을 그대로 반영한다. 이러한 제약 하에서 YOLOv8·YOLOv11을 경량화하고, 마스크‑분할 헤드를 추가해 실시간 세그멘테이션을 구현했다. 평가 지표는 전통적인 Dice 외에 경계 정확도를 측정하는 Hausdorff 거리까지 포함해, 근접 조작 시 요구되는 정밀도를 정량화한다. 결과적으로 Dice 0.92와 Hausdorff 0.69는 높은 영역 일치와 경계 정밀도를 동시에 달성했으며, 0.5 s 추론은 실시간 요구를 충족한다.
또한, 기존 연구가 CPU‑GPU 혼합 환경이나 대용량 메모리를 가정한 반면, 본 논문은 순수 CPU 환경에서의 성능을 보고함으로써 실제 우주 임무에 바로 적용 가능한 기준을 제공한다. 데이터와 코드가 공개된 점은 커뮤니티가 동일 조건에서 모델을 비교·개선할 수 있게 하며, 향후 더 복잡한 모델(예: Transformer‑기반 세그멘터)이나 경량화 기법을 적용해 성능‑자원 트레이드오프를 탐구할 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기