합성 데이터로 로봇 매니오미터 인식 혁신

합성 데이터로 로봇 매니오미터 인식 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 위험한 해양 플랜트 환경에서 매니오미터와 같은 산업 장비를 인식하기 위한 데이터 부족 문제를 해결하고자, BlenderProc 기반의 절차적 렌더링과 NVIDIA Cosmos‑Predict2 기반 AI 영상 생성을 결합한 하이브리드 합성 데이터 파이프라인을 제안한다. 실제 이미지와 합성 이미지를 1:1 비율로 혼합한 학습이 YOLO 기반 탐지 모델의 정확도를 가장 크게 향상시켰으며, 합성 데이터가 비용 효율적이고 안전한 데이터 확보 방법임을 입증한다.

상세 분석

이 연구는 두 가지 핵심 기술을 통합한다. 첫 번째는 BlenderProc을 이용한 절차적 렌더링으로, 3D 모델에 무작위 배경, 조명, 카메라 포즈, 포스트‑프로세싱(노이즈·블러·색수차) 등을 적용해 도메인 랜덤화를 구현한다. 이를 통해 픽셀‑정밀 라벨(바운딩 박스·세그멘테이션)을 자동 생성함으로써 라벨링 비용을 거의 0에 가깝게 만든다. 두 번째는 NVIDIA의 Cosmos‑Predict2를 ComfyUI 워크플로우와 연동해 실제 짧은 클립을 입력으로 받아 물리적으로 일관된 영상 프레임을 합성한다. 이 과정에서는 조명 재조정, 시점 변환, 모션 블러, 가림 현상 등을 시뮬레이션하여 정적 렌더링으로는 재현하기 어려운 시간적 다양성을 제공한다. 합성된 영상 프레임은 트래킹 기반의 의사 라벨링을 거쳐 인간 전문가가 검증·필터링함으로써 라벨 품질을 보장한다.

데이터 구성 실험에서는 실제 이미지 2,500장을 기준으로, 합성 이미지를 1:1(2,500) 및 1:3(7,500) 비율로 추가한 세 가지 시나리오를 비교하였다. 합성 이미지 내부에서도 BlenderProc(70%)과 Cosmos‑Predict2 기반 영상(30%)의 비율을 조정해 라벨 정확도와 시간적 다양성 간의 트레이드오프를 탐색했다. 모든 시나리오에 동일한 YOLOv5(또는 YOLOX) 구조와 하이퍼파라미터를 적용했으며, 평가 지표는 mAP@


댓글 및 학술 토론

Loading comments...

의견 남기기