재료 네트워크를 활용한 레시피 추천
초록
온라인 레시피 사이트에서 수집한 46 000여 개 레시피와 2 백만 건의 리뷰를 분석해, 재료 간의 공존 관계를 PMI 기반 ‘보완 네트워크’와 사용자 수정 제안을 이용한 ‘대체 네트워크’로 모델링하였다. 두 네트워크는 각각 달콤·짭짤 커뮤니티와 건강·기능별 대체군을 형성한다. 네트워크 특성, 영양 정보, 레시피 메타데이터를 결합한 회귀 모델은 레시피 평점을 0.792의 정확도로 예측했으며, 예측 성능의 84 %가 재료 네트워크에서 기인한다는 결과를 제시한다.
상세 분석
본 논문은 대규모 사용자 생성 레시피 데이터에서 재료 간 관계를 정량화하고, 이를 레시피 추천에 활용하는 방법론을 제시한다. 먼저 46 337개의 레시피와 1 976 920개의 리뷰를 수집하고, 정규표현식 기반 전처리를 통해 상위 1 000개의 빈번히 등장하는 재료를 추출하였다. 보완 네트워크는 재료 쌍의 점별 상호정보(PMI)를 가중치로 하는 무방향 그래프로 구축했으며, PMI가 높은 쌍은 실제 요리에서 자주 함께 사용되는 관계를 반영한다. 네트워크 클러스터링 결과, ‘savory’와 ‘sweet’ 두 개의 거대 커뮤니티가 도출되고, 달콤한 칵테일 재료가 별도 위성 클러스터를 형성한다는 흥미로운 구조를 발견했다.
대체 네트워크는 리뷰 텍스트에서 “add”, “omit”, “instead” 등 변형을 나타내는 키워드를 추출하고, 해당 문맥에서 언급된 원재료와 대체재를 연결한다. 이렇게 얻은 유향성 그래프는 기능적으로 유사하거나 영양적으로 더 건강한 대체군을 여러 커뮤니티로 분류한다. 예를 들어, ‘버터’를 ‘사과소스’로, ‘전지우유’를 ‘저지방우유’로 대체하는 패턴이 빈번히 나타난다.
예측 실험에서는 레시피 평점을 목표 변수로 삼고, (1) 보완 네트워크의 최대/평균 PMI, (2) 대체 네트워크의 대체 가능성 지표, (3) 영양 성분(칼로리, 지방, 당류 등) 및 메타데이터(조리 시간, 난이도)를 특징으로 사용하였다. 선형 회귀와 랜덤 포레스트 모델을 비교한 결과, 전체 정확도는 0.792였으며, 특성 중요도 분석에서 네트워크 기반 특징이 전체 기여도의 84 %를 차지한다는 점을 확인했다. 이는 전통적인 영양 기반 추천보다 재료 간 관계를 고려한 접근이 레시피 성공을 더 잘 설명한다는 의미이다.
또한, 리뷰에서 변형을 언급한 경우 평균 평점이 유의하게 높고 평점 분산이 낮다는 통계적 사실을 발견함으로써, 사용자들이 레시피를 자유롭게 수정하면서도 만족도가 높아지는 현상을 정량화하였다. 이러한 결과는 레시피 설계 단계에서 ‘핵심 재료’와 ‘유연한 재료’를 구분하고, 대체 옵션을 자동으로 제시하는 시스템 구축에 활용될 수 있다.
논문의 한계로는 영어 레시피에만 초점을 맞추었으며, 문화·지역별 미묘한 맛 선호를 완전히 포착하지 못했다는 점이다. 향후 다국어 데이터와 더 정교한 자연어 처리 기법을 도입하면, 보다 포괄적인 글로벌 레시피 추천 엔진을 구현할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기