단일 이미지 기반 3D 포인트 클라우드 활용 식품 양 추정 시스템
초록
MFP3D는 단일 RGB 사진만을 입력으로 받아, 딥러닝 기반 깊이 추정으로 3D 포인트 클라우드를 재구성하고, 2D 이미지와 3D 클라우드 양쪽에서 특징을 추출해 결합한 뒤, 회귀 네트워크로 음식의 부피와 에너지 값을 정확히 예측한다. MetaFood3D 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보인다.
상세 분석
본 논문은 식품 섭취량을 정량화하는 핵심 문제인 3차원 형태 복원을 단일 이미지만으로 해결하려는 시도이다. 기존 연구들은 물리적 레퍼런스(체커보드 등), 고품질 깊이 센서, 혹은 다중 뷰 영상을 전제해 왔지만, 실제 생활에서는 이러한 조건을 만족시키기 어렵다. MFP3D는 이러한 제약을 없애고, 세 가지 모듈로 구성된 파이프라인을 제안한다. 첫 번째 3D 재구성 모듈은 최신 단일 이미지 깊이 추정 모델인 ZoeDepth를 활용해 픽셀당 깊이 맵을 생성하고, 이를 통해 포인트 클라우드를 만든다. 또한, 최신 메쉬 복원 모델인 TriPoSR를 이용해 메쉬를 복원한 뒤 샘플링해 포인트 클라우드로 변환하는 두 가지 경로를 실험적으로 비교한다. 두 번째 특징 추출 모듈에서는 2D 이미지에 ResNet‑50(마지막 두 레이어 제외, 512 차원 FC)와 3D 포인트 클라우드에 CurveNet(지역 특징 집계와 다중 스케일 인셉션 컨볼루션) 각각을 적용해 고차원 특징을 얻는다. 이때 2D와 3D 특징을 단순히 연결(concatenation)함으로써 두 모달리티의 장점을 동시에 활용한다. 마지막 회귀 모듈은 연결된 특징 벡터를 입력으로 L1 손실을 최소화하는 선형 레이어(또는 심층 회귀 네트워크)로 부피와 에너지(칼로리)를 예측한다. 실험에서는 MetaFood3D(637개 음식, 108카테고리)와 SimpleFood45 두 데이터셋을 사용했으며, MAE와 같은 절대 오차 지표에서 기존 깊이 기반, 다중 뷰 기반, 레퍼런스 기반 방법들을 모두 앞섰다. 특히, GT 포인트 클라우드와 비교했을 때 정규화된 GTPC와 재구성된 포인트 클라우드 모두 의미 있는 성능을 보였으며, 3D 특징만 사용했을 때보다 2D와 결합했을 때 약 10% 이상의 정확도 향상이 관찰되었다. 논문은 또한 포인트 클라우드의 스케일 정보를 손실시키고 형태만을 이용한 실험을 통해, 형태 정보만으로도 충분히 양 추정이 가능함을 입증한다. 전체 파이프라인이 엔드‑투‑엔드로 학습 가능하다는 점도 실용성을 높인다. 다만, 깊이 추정 오류와 포인트 샘플링 수(1024점) 제한이 최종 정확도에 영향을 미칠 수 있으며, 복잡한 음식(다중 레이어, 투명성)에서는 여전히 한계가 남는다. 향후 연구에서는 더 정교한 포인트 클라우드 정규화, 어텐션 기반 특징 융합, 그리고 실시간 모바일 구현을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기