C2C 판매 사이트 맞춤 추천, NoSQL·토픽모델·앙상블 학습 기반 시스템
초록
본 논문은 사용자가 입력한 물품의 설명, 카테고리, 희망 판매가격을 바탕으로 베트남 C2C 마켓플레이스에서 최적의 판매 사이트를 자동으로 순위 매기는 추천 시스템을 제안한다. Elasticsearch 기반 NoSQL 저장소에 수집된 데이터를 전처리하고, TF‑IDF와 토픽 모델링(LDA·NMF)으로 의미적 특징을 추출한 뒤, 랜덤 포레스트 앙상블을 이용해 다중 라벨(다중 사이트) 순위 예측을 수행한다. 실험 결과, 제안 방법이 기존 카테고리 기반 추천보다 높은 정확도와 실용성을 보였다.
상세 분석
이 연구는 C2C 전자상거래 환경에서 “어디에 물품을 올려야 판매가 극대화되는가”라는 실질적인 의사결정 문제를 데이터 과학적으로 해결하고자 한다. 첫 번째 핵심은 데이터 저장소 선택이다. 저자들은 다양한 C2C 사이트의 구조적 차이를 고려해 스키마가 없는 Elasticsearch를 NoSQL 데이터베이스로 채택했으며, 이는 대용량 텍스트 문서의 실시간 색인·검색과 집계 기능을 제공한다. 두 번째 핵심은 비정형 텍스트(물품 설명)의 의미적 표현이다. 단순 BOW·TF‑IDF는 차원이 수만에 달하고 의미 중복을 반영하지 못하므로, 저자들은 LDA와 비확률적 NMF 두 가지 토픽 모델링 기법을 비교 적용했다. 토픽 수는 사전 실험을 통해 최적화했으며, 결과적으로 문서‑토픽 행렬이 각 물품을 저차원 의미 벡터로 변환한다. 이 벡터는 코사인 유사도 계산에 사용돼 동일하거나 유사한 물품이 다수 등록된 사이트의 양(상품 수)·가격(평균가) 통계와 결합된다. 세 번째 핵심은 다중 라벨 분류 문제이다. 동일 물품이 여러 사이트에 동시에 등록될 수 있기 때문에 전통적인 단일 라벨 분류기가 부적합하다. 이를 해결하기 위해 저자들은 배깅 기반의 랜덤 포레스트를 활용했으며, 각 트리는 부트스트랩 샘플과 무작위 특성 선택을 통해 서로 다른 데이터 서브셋과 특징을 학습한다. 최종 예측은 각 트리의 투표 결과를 집계해 사이트 라벨에 대한 순위를 산출한다. 이 방식은 라벨 간 상관관계를 자연스럽게 반영하면서 과적합을 억제한다. 실험에서는 베트남 주요 C2C 마켓(Cho Tot, Nhat Tao, Vat Gia 등)에서 수집한 실제 거래 데이터를 사용했으며, 제안된 토픽 모델링 + 랜덤 포레스트 조합이 기존 카테고리 기반 혹은 단순 TF‑IDF 기반 방법보다 정밀도·재현율·MAP(All‑Mean‑Average‑Precision) 지표에서 유의미하게 우수함을 입증했다. 전체 시스템은 설명 입력 → 토픽 변환 → 유사도·통계 기반 점수 계산 → 앙상블 분류기로 최종 순위 도출이라는 파이프라인을 갖추어, 실시간 서비스 적용 가능성을 보였다.
댓글 및 학술 토론
Loading comments...
의견 남기기