하이브리드 의류 추천 시스템: 사용자 평점과 제품 속성의 융합
초록
본 논문은 사용자 평점과 의류의 시각·텍스타일 속성을 동시에 활용하는 하이브리드 추천 모델(HCRS)을 제안한다. 협업 필터링 기반의 사용자‑아이템 행렬과 제품 메타데이터를 결합해 정확도와 다양성을 동시에 향상시켰으며, 시뮬레이션 실험을 통해 기존 단일 방식 대비 추천 품질이 개선됨을 입증한다.
상세 분석
이 연구는 온라인 의류 쇼핑몰에서 발생하는 ‘정보 과부하’ 문제를 해결하기 위해 협업 필터링(CF)과 콘텐츠 기반 필터링(CBF)을 결합한 하이브리드 구조를 설계하였다. 먼저 사용자‑아이템 평점 행렬을 기반으로 행렬 분해 기법(예: SVD 또는 ALS)을 적용해 잠재 요인(latent factors)을 추출한다. 이때 평점 데이터가 희소하고 신규 아이템에 대한 콜드 스타트 문제가 발생할 수 있기에, 의류의 색상, 패턴, 소재, 스타일 등 구조화된 메타데이터를 별도의 특성 벡터로 변환한다. 두 벡터를 가중합하거나 메타 학습(meta‑learning) 방식으로 통합함으로써, 사용자가 아직 평가하지 않은 신상품이라도 속성 유사성을 통해 적절한 점수를 예측할 수 있다.
핵심 기술적 기여는 다음과 같다.
- 다중 손실 함수 설계: 평점 예측 오차와 속성 기반 유사도 손실을 동시에 최소화하는 목적 함수를 정의해, 두 정보원 간의 균형을 자동 조정한다.
- 가중치 학습 메커니즘: 사용자마다 협업 정보와 콘텐츠 정보에 대한 선호도가 다를 수 있음을 고려해, 사용자‑특정 가중치 파라미터를 도입한다. 이는 EM‑like 절차 혹은 딥러닝 기반 어텐션 모듈으로 학습된다.
- 스케일링 및 정규화: 의류 속성은 범주형이 많아 원‑핫 인코딩 후 차원 축소(PCA, AutoEncoder) 과정을 거쳐 행렬 분해와 동일 차원으로 맞춘다. 또한 평점 스케일과 속성 스코어를 동일 범위로 정규화해 결합 시 편향을 방지한다.
실험은 자체 시뮬레이션 환경에서 진행했으며, 데이터는 Yintai, Vancl, Vipshop 등 실제 전자상거래 사이트에서 수집한 10만 건 이상의 사용자‑상품 상호작용과 5천 개 이상의 의류 메타데이터를 사용했다. 평가 지표는 RMSE, MAE와 함께 Top‑N 정확도, 다양성(Diversity), 신뢰도(Serendipity)를 포함한다. 결과는 순수 CF 대비 RMSE가 12% 감소하고, Top‑10 정확도가 8% 상승했으며, 특히 신규 아이템에 대한 추천 성공률이 크게 향상된 것으로 나타났다.
하지만 몇 가지 한계점도 존재한다. 첫째, 속성 데이터의 품질에 크게 의존한다는 점이다. 색상이나 소재 라벨링이 일관되지 않으면 모델이 오히려 노이즈를 학습한다. 둘째, 현재 실험은 오프라인 시뮬레이션에 국한돼 실제 사용자 행동(클릭, 구매 전환)과의 연관성을 검증하지 못했다. 셋째, 가중치 학습 과정이 복잡해 실시간 서비스에 적용하려면 추가적인 경량화가 필요하다. 향후 연구에서는 사용자 피드백을 실시간으로 반영하는 강화학습 기반 업데이트와, 이미지 기반 딥러닝 특징 추출을 결합해 속성 라벨링의 의존성을 낮추는 방향을 제시한다.