다중시점 음식 비디오 세분화 대규모 데이터셋 BenchSeg
초록
BenchSeg은 55가지 요리 장면을 25,284개의 프레임에 걸쳐 360° 자유 카메라 움직임으로 촬영·주석한 대규모 다중시점 음식 비디오 세분화 데이터셋이다. 기존 정적 이미지 기반 모델은 새로운 시점에서 성능이 급락하지만, 메모리 기반 영상 추적 모듈을 결합한 하이브리드 모델은 시간적 일관성을 유지한다. 데이터셋과 새로운 시간 안정성 지표를 공개해 향후 식단 분석 연구를 촉진한다.
상세 분석
BenchSeg은 기존 FoodSeg103과 같은 정적 이미지 벤치마크가 갖는 시점 편향을 극복하기 위해, 네 개의 공개 음식 데이터셋(Nutrition5k, Vegetables & Fruits, MetaFood3D, FoodKit)에서 자유로운 360° 카메라 궤적을 재현하고, 각 프레임에 픽셀 수준의 마스크를 정밀하게 주석하였다. 총 55개의 요리 씬과 25,284개의 프레임은 평균 460프레임·씬당으로, 다양한 조명·배경·식기·손동작을 포함한다. 이러한 설계는 실제 모바일 식단 기록 상황을 그대로 모사한다는 점에서 의의가 크다.
평가 프로토콜은 두 축으로 구성된다. 첫 번째는 기존 이미지 세분화 지표(mAP, IoU, F1 등)를 그대로 적용해 프레임별 정확도를 측정한다. 두 번째는 연속성(Continuity), 깜빡임률(Flicker Rate), IoU Drift와 같은 시간 안정성 메트릭을 도입해 마스크의 시간적 변동성을 정량화한다. 이는 동일한 프레임 정확도를 보이는 모델이라도 영상에서 보이는 품질 차이를 드러내는 중요한 척도이다.
20개의 최신 모델을 대상으로 두 가지 실험을 수행하였다. (1) FoodSeg103만을 학습 데이터로 사용해 BenchSeg에서 직접 평가하고, (2) 동일 모델에 XMem2·XMem 등 메모리 기반 영상 추적 모듈을 결합해 두 단계 파이프라인을 구성하였다. 결과는 크게 두 가지 패턴을 보인다. 순수 이미지 세분화기(SAM, Swin‑Transformer, BiRefNet 등)는 새로운 시점에서 경계 손실·부분 누락·불필요한 배경 포함 등으로 mAP가 10~15% 급감한다. 반면 메모리 모듈을 추가한 SeTR‑MLA+XMem2, SegMan+XMem2 등은 시점 변화에도 마스크를 지속적으로 보정하며, 특히 Flicker Rate와 IoU Drift가 현저히 낮아 시간적 일관성을 확보한다.
성능 향상의 정량적 근거는 SeTR‑MLA+XMem2가 FoodMem 대비 mAP 2.63%p 상승한 점이다. 또한 모델 크기·메모리 발자국·추론 속도 등 실용적 측면에서도 비교가 제공되어, 모바일 디바이스에서의 배포 가능성을 평가할 수 있다.
이 논문은 데이터셋 자체가 새로운 연구 기반을 제공함은 물론, 시간 안정성 메트릭을 통해 “정확도만으로는 충분치 않다”는 사실을 실증한다. 향후 연구는 (1) 메모리 모듈의 장기 의존성 강화, (2) 프롬프트 기반 대형 모델(SAM·LMM)과 메모리 추적기의 효율적 결합, (3) 식품 영양 추정 파이프라인과의 연계 평가 등으로 확장될 여지가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기