매니트윈 대규모 디지털 객체 데이터셋 10만개

본 논문은 로봇 조작 학습을 위한 시뮬레이션 기반 데이터 생성에 필수적인 디지털 객체 트윈을 대규모로 자동 생성·주석·검증하는 파이프라인 ‘매니트윈(ManiTwin)’을 제안한다. 기존 3D 데이터셋은 ShapeNet, Objaverse 등 기하학적 다양성은 풍부하지만 물리 파라미터, 충돌 검증, 조작 의미와 같은 로봇‑중심 메타데이터가 부족해 실제 시뮬레이션에 바로 활용하기 어렵다. 반면, 로봇‑전용 데이터셋은 규모가 작거나 기능 라벨이 제한적이다. 이러한 격차를 메우기 위해 매니트윈은 단일 이미지 입력만으로 시뮬레이션‑준비 3D 메쉬와 풍부한 조작 주석을 자동으로 생성한다. 1. **Asset Generation** - 입력 이미지(또는 텍스트)에서 배경을 제거하고 고해상도 3D 메쉬를 최신 3D 생성 모델(예: DreamFusion 기반)로 만든다. - 생성된 메쉬는 다양한 포맷(glb, usdz 등)으로 변환 후 시뮬레이터 API와 호환되도록 콜라이더와 물리 속성을 부착한다. - VLM을 이용해 다중 뷰 렌더링을 평가, ‘단일 객체 존재’와 ‘시각적 품질’ 기준을 통과하지 못하면 폐기한다(전체 10‑15% 필터링). - 통과된 메쉬에 대해 VLM이 물체의 색상·재질·크기·무게·마찰계수 등을 추정하고, 이를 기반으로 실제 세계 스케일을 정규화한다. 동시에 풍부한 언어 캡션(카테고리, 색, 재질, 기능 등)을 생성한다. 2. **Asset Annotation** - 메쉬 표면에서 밀집 포인트 클라우드를 추출하고, FPS(가장 먼 점 샘플링)로 공간적으로 고르게 𝑁개의 후보점을 선정한다. - 후보점에 대해 VLM에 질의하여 ‘기능 포인트(예: 물 주둥이, 손잡이, 버튼)’와 ‘그립 포인트’를 라벨링한다. 각 포인트는 기능 설명, 신뢰도, 이유를 포함한다. - GraspGen 같은 학습 기반 그립 제안기를 사용해 후보점 주변에서 다수의 6‑DoF 그립 자세를 생성한다. 각 그립은 안정성 점수와 함께 제공된다. - 생성된 그립은 기능 포인트와의 거리 기반 필터링을 거쳐 의미‑연관된 그립만 남기고, 그립 유형(파워, 핀치, 엔벌로핑 등)과 사용 시나리오(들고 이동, 부품 잡기 등)를 라벨링한다. 3. **Verification** - 자동 검증 단계에서는 PhysX 기반 SAPIEN 시뮬레이터에서 각 그립을 실제 로봇 그리퍼로 시뮬레이션한다. 그립이 물체를 일정 프레임 이상 안정적으로 유지하고, 슬라이드 저항 테스트(다방향 이동)에서 일정 임계값 이하로 움직이면 ‘통과’로 간주한다. - 인간 검수자는 자동 검증을 통과한 샘플을 무작위로 선택해 메쉬 품질, 물리 파라미터의 현실성, 언어 라벨의 정확성, 시뮬레이션 결과 등을 최종 확인한다. 검수 결과는 VLM 프롬프트와 필터링 기준을 재조정하는 데 활용된다. - 최종 출력은 (i) 시뮬레이션‑준비 3D 메쉬, (ii) 물리 속성(OBB, 질량, 마찰), (iii) 언어 캡션, (iv) 기능·그립 포인트와 라벨, (v) 검증된 6‑DoF 그립 자세, (vi) 배치 가능한 면 정보 등이다. 4. **ManiTwin‑100K 데이터셋** - 위 파이프라인을 통해 100 000개의 디지털 트윈을 구축하였다. 입력 이미지는 전자상거래 제품 사진, 공개 이미지, 텍스트‑투‑이미지 생성 등 다양한 출처에서 수집하였다. - 데이터셋은 주방용품, 공구, 전자기기, 개인용품, 사무용품, 생활용품 등 20여 개 대분류와 100여 개 소분류를 포괄한다. 각 객체는 평균 2‑4개의 기능 포인트, 2‑3개의 그립 포인트, 10‑50개의 검증된 그립 자세를 포함한다. - 표 1에서 보듯, 기존 데이터셋은 ‘시뮬레이션‑준비’와 ‘조작 주석’ 중 하나만 충족하거나 규모가 작지만, ManiTwin‑100K는 두 축을 모두 만족하면서 10만 개라는 대규모를 달성한다. 5. **응용 사례** - **조작 데이터 생성**: 자동 파이프라인으로 대규모 트래젝터리와 시뮬레이션 로그를 생성해 강화학습, 행동 클로닝 등에 활용 가능. - **장면 레이아웃 합성**: 배치 가능한 면 정보와 물리 속성을 이용해 복잡한 클러터 씬을 자동 생성, 시뮬레이션 기반 장면 이해 연구에 기여. - **로봇 VQA**: 풍부한 언어 캡션과 기능·그립 라벨을 결합해 질문‑답변 데이터셋을 만들 수 있어, 언어‑시각‑행동 통합 모델 학습에 유리. - **3D 이해**: 기능 포인트와 그립 라벨은 물체 인식·분할· affordance 예측 등 3D 비전 과제에 직접적인 supervision을 제공한다. 6. **실험 및 평가** - 파이프라인 자동화 정도를 측정한 결과, 전체 생성 중 약 85‑90%가 자동 검증을 통과했으며, 인간 검수자는 5% 이하의 오류만 발견했다. - ManiTwin‑100K 기반으로 학습한 로봇 정책은 기존 YCB·RoboTwin‑OD 기반 정책 대비 7‑12% 높은 성공률을 보였으며, 특히 물체의 기능적 포인트를 활용한 태스크(예: 물 따르기, 레버 조작)에서 큰 향상이 관찰되었다. - 장면 합성 실험에서는 10K개의 무작위 클러터 씬을 생성했을 때, 물리 충돌 오류가 0.3% 이하로 매우 낮았다. 결론적으로, 매니트윈은 “이미지 → 물리‑시뮬레이션 준비 3D 트윈 → 풍부한 조작 주석 → 검증”이라는 전 과정을 자동화함으로써 로봇 조작 연구에 필요한 대규모 고품질 데이터의 병목을 해소한다. 향후에는 텍스트‑투‑이미지 기반 객체 다양성 확대와, 실세계 로봇 시스템에 직접 적용 가능한 도메인 적응 기법을 추가 연구할 계획이다.

매니트윈 대규모 디지털 객체 데이터셋 10만개

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기