혼란스러운 주방 물체 수준 3D 재구성

본 논문은 물체 수준 3D 장면 재구성 분야에서 두 가지 핵심 문제, 즉 (1) 실제 환경에서 물체 간 접촉이 풍부한 장면에 대한 고품질 라벨 데이터 부족, (2) 다중 물체를 동시에 복원하면서 물리적 일관성을 유지하는 모델 부재를 동시에 해결하고자 한다. 이를 위해 저자들은 MessyKitchens라는 새로운 벤치마크와 Multi‑Object Decoder(MOD)라는 모델을 제안한다. MessyKitchens 데이터셋은 100개의 실제 주방 장면을 포함한다. 각 장면은 4~8개의 물체로 구성되며, 난이도에 따라 물체 간 접촉·중첩 정도가 달라진다. 물체는 130종으로, 각각을 투명 아크릴 판 위에 고정하고 두 번(위·아래) 스캔하여 3D 메쉬를 획득한다. 스캔 과정에서 이중 반사 마커를 사용해 자동 정합을 지원하고, 정밀한 포인트‑투‑메쉬 오차(≤0.05 mm)를 달성한다. 장면 전체도 동일 스캐너로 촬영해 물체‑장면 정합 데이터를 만든다. 정합 파이프라인은 초기 수동 정렬 후, 표면 포인트 거리 최소화와 표면 법선 정합 패널티를 순차적으로 적용하는 두 단계 최적화로 구성된다. 이를 통해 얇은 물체가 양면에 걸쳐 침투하는 오류를 방지한다. 또한, MessyKitchens‑synthetic이라는 합성 데이터셋을 제공한다. GSO 3D 자산 42종을 활용해 실제 데이터와 동일한 난이도 규칙으로 물체를 배치하고, 물리 엔진 기반 중력·충돌 시뮬레이션을 적용해 현실적인 스택·삽입 관계를 만든다. Blender Cycles를 이용해 포토리얼리스틱 렌더링을 수행하고, 각 뷰에 대한 인스턴스 마스크와 의미 맵을 자동 생성한다. 이렇게 구축된 합성 데이터는 대규모 학습에 활용될 수 있다. 모델 측면에서 저자들은 기존 SAM‑3D 프레임워크를 기반으로 Multi‑Object Decoder(MOD)를 설계한다. SAM‑3D는 이미지와 물체 마스크를 입력으로 받아 물체별 shape token( Fs )과 pose token( Fp )을 추출하고, 각각을 디코더가 7‑DOF 포즈와 voxel‑based 형상을 예측한다. MOD는 N개의 물체에 대해 shape token 집합 Ts와 pose token 집합 Tp를 구성하고, K개의 Transformer 블록을 통해 self‑attention과 cross‑attention을 반복 적용한다. 각 블록은 모든 물체의 토큰을 공유함으로써 전역적인 공간 관계와 접촉 정보를 학습한다. 최종 출력에서는 SAM‑3D가 예측한 포즈에 잔차 형태의 보정값을 더해 scene‑aware pose를 얻으며, 손실 함수에 inter‑object penetration volume을 포함시켜 학습 단계부터 비침투성을 유도한다. 실험에서는 MessyKitchens, GraspNet‑1B, HouseCat6D 세 데이터셋에 대해 MOD와 기존 최첨단 방법(SAM‑3D, MIDI, PartCrafter 등)을 비교하였다. 평가 지표는 물체 형상 IoU, 포즈 평균 절대 오차, 그리고 inter‑object penetration volume이다. MOD는 모든 지표에서 평균 12 % 이상의 성능 향상을 보였으며, 특히 Hard 난이도에서 침투 감소율이 35 %에 달했다. 합성 데이터로 사전 학습한 후 실제 MessyKitchens에 fine‑tune 하면 실세계 성능이 크게 상승함을 확인하였다. 저자들은 본 연구의 주요 기여를 세 가지로 정리한다. 첫째, 고정밀 물체‑레벨 접촉 라벨을 제공하는 최초의 실세계 데이터셋인 MessyKitchens를 공개하였다. 둘째, 다중 물체 간 상호작용을 학습해 물리적 plausibility를 보장하는 Multi‑Object Decoder를 제안하였다. 셋째, 합성‑실제 혼합 학습 전략을 통해 모델의 일반화 능력을 크게 향상시켰다. 향후 연구에서는 동적 물체·변형·재료 물성까지 포함한 전시뮬레이션을 목표로, 물체 간 마찰·탄성 모델을 손실에 통합하는 방향을 모색한다.

혼란스러운 주방 물체 수준 3D 재구성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기