글로벌폐기물데이터: 통합 대규모 폐기물 이미지 데이터셋 구축
초록
본 논문은 89,807장의 이미지와 14개의 상위 카테고리·68개의 세부 클래스를 포함하는 GlobalWasteData(GWD) 데이터셋을 제시한다. 기존 폐기물 데이터셋의 규모·다양성·라벨 불일치 문제를 해결하기 위해 여러 공개 데이터셋을 정제·통합하고, 품질 필터링·중복 제거·메타데이터 생성 등 전처리 과정을 거쳤다. 균형 잡힌 클래스 분포와 일관된 어노테이션을 제공함으로써 폐기물 자동 분류 및 환경 모니터링 모델의 일반화 성능을 향상시키고, 연구 재현성을 높인다.
상세 분석
본 연구는 폐기물 자동 분류에 필요한 데이터 기반의 근본적인 한계를 체계적으로 분석하고, 이를 극복하기 위한 데이터 엔지니어링 파이프라인을 제시한다. 먼저 기존 공개 데이터셋(TrashNet, TACO, ZeroWaste 등)의 규모, 클래스 수, 라벨 체계, 이미지 품질을 정량적으로 비교하였다. 대부분의 데이터셋이 2천~3천 장 수준에 불과하거나 특정 카테고리(플라스틱·종이)에 편중돼 있어, 딥러닝 모델이 소수 클래스에 대해 과적합하거나 일반화에 실패하는 문제가 드러났다. 또한 어노테이션 포맷(COCO, VOC, CSV)과 메타데이터(촬영 환경, 해상도)의 불일치가 데이터 병합을 방해한다는 점을 지적한다.
GWD 구축 과정은 크게(1) 데이터 수집·통합, (2) 품질 검증·정제, (3) 라벨 표준화·계층화, (4) 메타데이터 부여의 네 단계로 구성된다. 수집 단계에서는 14개 공개 데이터셋을 원본 형태로 다운로드하고, 이미지 해시 기반 중복 검출 알고리즘을 적용해 5,432장의 중복 이미지를 제거하였다. 품질 검증 단계에서는 블러, 저조도, 과다 노출 등 시각적 결함을 자동 평가하는 CNN 기반 필터를 도입해 3,118장의 저품질 이미지를 제외하였다. 라벨 표준화 단계에서는 68개의 세부 클래스를 14개의 상위 카테고리로 계층화하고, 서로 다른 어노테이션 스키마를 COCO 형식으로 통일하였다. 특히 ‘플라스틱·비닐·병·캡’ 등 세부 구분을 추가함으로써 기존 데이터셋이 제공하지 못했던 미세 분류 능력을 확보했다. 마지막 메타데이터 단계에서는 촬영 국가·지역·조명·배경 정보를 JSON 형태로 기록해 도메인 적응 연구에 활용 가능하도록 설계하였다.
통계적으로 GWD는 평균 클래스당 6,414장의 이미지를 보유하며, 가장 적은 클래스도 1,102장으로 최소 20% 이상 균형을 이룬다. 이미지 해상도는 640×480~1920×1080 사이로 다양하지만, 모든 이미지가 RGB 3채널을 유지한다. 또한, 데이터셋은 학습·검증·테스트 70:15:15 비율로 자동 분할되며, 각 분할에 동일한 클래스 비율을 유지하도록 스트라티파이드 샘플링을 적용하였다.
베이스라인 실험에서는 ResNet-50, EfficientNet-B3, Swin‑Transformer 등 최신 모델을 동일 조건에서 학습시켰으며, GWD 기반 모델이 기존 개별 데이터셋 대비 평균 7.3% 높은 Top‑1 정확도와 12.5% 향상된 F1‑score를 기록했다. 특히 소수 클래스(예: 의료 폐기물, 전자 부품)에서의 재현율이 크게 개선돼, 실제 현장 적용 시 위험 폐기물 오분류 위험을 감소시킬 수 있음을 보여준다.
이와 같이 GWD는 데이터 규모·다양성·품질·표준화 측면에서 기존 한계를 종합적으로 해결한 통합 데이터베이스이며, 향후 폐기물 분류, 도메인 적응, 멀티모달 센서 융합 연구에 핵심 인프라로 활용될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기