오픈 푸드 팩트 기반 머신러닝으로 초가공식품 수준 자동 예측
초록
본 연구는 90만 개 이상의 식품 데이터를 보유한 Open Food Facts를 활용해 영양성분만으로 NOVA 식품 가공 단계(14)를 예측하는 머신러닝 모델을 구축하였다. LightGBM이 8085% 정확도로 가장 우수했으며, 최소 가공식품과 초가공식품을 효과적으로 구분한다. 또한 NOVA 등급과 Nutri‑Score, Eco‑Score, 탄소발자국, 알레르기 유발 성분 간의 연관성을 탐색해 초가공식품이 영양·환경·알레르기 위험이 높다는 점을 확인하였다.
상세 분석
이 논문은 기존 NOVA 라벨링이 주로 가공 과정과 성분 목록에 의존한다는 한계를 극복하고, 영양성분 프로파일만으로 자동 분류가 가능한지를 검증한다. 데이터 전처리 단계에서 44개의 공통 영양소를 정렬하고, 결측치 비율이 15% 이하인 78개의 핵심 영양소를 선택하였다. 결측값 보정에는 평균 대체와 자동인코더(AutoEncoder)를 적용했으며, 후자는 데이터의 잠재 구조를 학습해 보다 현실적인 대체값을 생성한다. 모델링에서는 Random Forest, LightGBM, CatBoost 세 가지 트리 기반 알고리즘을 사용했고, RandomizedSearchCV와 Optuna를 통해 하이퍼파라미터를 최적화하였다. 클래스 불균형을 해결하기 위해 SMOTE와 언더샘플링 등을 적용했으며, 최종적으로 LightGBM이 0.820.85의 정확도와 0.78~0.81의 F1 점수를 기록해 가장 높은 성능을 보였다.
성능 평가 외에도 탐색적 데이터 분석(EDA)을 통해 NOVA 등급과 Nutri‑Score, Eco‑Score, 탄소발자국, 알레르기 항목 간의 통계적 연관성을 검증했다. 카이제곱 검정과 Cramér’s V를 이용해 카테고리·알레르기·점수 간 독립성을 확인했으며, Kruskal‑Wallis 검정으로 연속형 변수(탄소발자국, Nutri‑Score, Eco‑Score)의 등급별 차이를 분석했다. 결과는 NOVA 4(초가공) 제품이 Nutri‑Score가 낮고(E), Eco‑Score가 낮으며(C), 탄소발자국이 높다는 일관된 패턴을 보였다. 알레르기 분석에서는 글루텐과 우유가 초가공 식품에서 가장 빈번히 발견되었으며, 이는 알레르기 위험이 높은 소비자에게 중요한 정보가 된다.
또한, 제품 카테고리별 네트워크 분석(Louvain 커뮤니티 탐지)을 통해 케이크·스낵·음료 등 특정 카테고리가 초가공군에 집중되는 구조적 특성을 시각화했다. 이러한 시각화는 정책 입안자와 소비자에게 가공 수준과 위험 요인을 직관적으로 전달한다.
마지막으로, 연구팀은 웹 기반 도구(https://cosylab.iiitd.edu.in/foodlabel/)를 공개해 사용자가 영양성분 입력만으로 NOVA 등급을 실시간 예측할 수 있도록 하였다. 이는 대규모 식품 데이터베이스를 활용한 자동 라벨링의 실용성을 보여주는 중요한 사례이다.
댓글 및 학술 토론
Loading comments...
의견 남기기