맞춤형 방글라 도서 추천을 위한 대규모 다중 엔터티 그래프 데이터셋
초록
본 논문은 방글라어 도서 추천을 위해 127,302권의 도서와 63,723명의 사용자를 포함한 대규모 이종 그래프 데이터셋 RokomatiBG를 구축하고 공개한다. 책, 저자, 출판사, 카테고리, 리뷰 등 5가지 엔터티와 8가지 관계를 연결해 풍부한 구조적·텍스트 정보를 제공한다. 구축된 데이터셋을 바탕으로 인기 기반, 협업 필터링, 행렬 분해, 콘텐츠 기반, 하이브리드, 그래프 신경망, 두 타워 신경망 등 12가지 추천 모델을 Top‑N 추천 과제에 평가했으며, 텍스트와 관계 정보를 동시에 활용한 신경망 기반 두 타워 모델이 NDCG@10 0.204로 가장 높은 성능을 보였다. 데이터와 코드가 공개되어 방글라어와 같은 저자원 문화 영역에서의 추천 연구에 중요한 기반을 제공한다.
상세 분석
RokomatiBG는 방글라어 온라인 서점 Rokomari.com에서 크롤링한 데이터를 정제·정규화하여 구축된 이종 지식 그래프이다. 엔터티는 도서(127,302개), 저자(16,601명), 출판사(2,757개), 카테고리(1,515개), 리뷰(209,602건)로 구성되며, 각각 ISBN, 페이지 수, 평균 평점, 저자 전기, 출판사 설명, 카테고리 설명, 리뷰 텍스트·평점·시간 등 풍부한 메타데이터를 포함한다. 관계는 ‘도서‑저자’, ‘도서‑출판사’, ‘도서‑카테고리’, ‘저자‑카테고리’, ‘저자‑출판사’, ‘출판사‑카테고리’, ‘사용자‑리뷰’, ‘리뷰‑도서’ 등 총 8가지이며, 전체 노드 403,714개와 2백만 개 이상의 엣지를 형성한다. 이러한 구조는 전통적인 협업 필터링이 활용할 수 있는 사용자‑아이템 행렬뿐 아니라, 메타 경로 기반의 고차 연결성, 텍스트 기반 의미 정보를 동시에 활용할 수 있게 한다.
벤치마크 실험에서는 12개의 모델을 선정하였다. (1) Popularity와 Item‑KNN 같은 베이스라인, (2) MF‑BPR, LightGCN 등 행렬 분해·그래프 기반 모델, (3) Content‑Based 모델은 도서 요약과 리뷰 텍스트를 TF‑IDF 혹은 임베딩으로 변환해 사용, (4) Hybrid‑FM은 사이드 피처(저자 팔로워 수, 출판사 규모 등)를 결합, (5) Two‑Tower Neural Retrieval은 도서와 사용자를 각각 인코더로 매핑하고 코사인 유사도로 순위를 매긴다. 실험 결과, 텍스트와 관계 정보를 모두 활용한 Two‑Tower 모델이 NDCG@10 0.204, NDCG@50 0.276으로 가장 우수했으며, LightGCN은 관계 구조만을 이용했을 때 평균적인 성능을 보였다. 반면 순수 협업 필터링(BPR)과 MF는 데이터 희소성(특히 사용자‑아이템 상호작용이 제한적인 저자원 환경) 때문에 낮은 성능을 기록했다. 이는 방글라어와 같이 리뷰 수가 제한적인 도메인에서 텍스트 기반 신호와 이종 관계가 성능 향상의 핵심임을 시사한다.
데이터 탐색 분석에서는 평점 분포가 5점 만점 중 65.8%가 5점에 집중되는 ‘극단적 평점 편향’ 현상이 발견되었으며, 카테고리별 구매·리뷰 비중을 보면 직업·교육, 현대 소설, 애국·종교 관련 도서가 높은 참여도를 보였다. 또한 저자 팔로워 수와 도서 평점 사이에 약한 양의 상관관계가 존재해, 저자 인기도가 추천에 활용될 가능성을 제시한다. 이러한 특성은 모델 설계 시 ‘콜드 스타트’ 완화를 위한 저자·출판사 메타 정보를 활용하거나, 카테고리 기반 군집화를 통한 다중 관심사 반영 전략에 유용하다.
데이터 품질 측면에서는 중복 제거, 결측값 표기, Bangla 숫자·문자 정규화, 개인정보 익명화 등을 철저히 수행했으며, 전체 엔터티와 관계에 대한 referential integrity 검증을 통해 그래프의 일관성을 확보했다. 공개된 JSON‑LD 스키마와 메타데이터 사전은 재현성 높은 연구를 지원한다. 향후 연구 방향으로는 (i) 이종 그래프 신경망의 메타‑패스 설계 최적화, (ii) 다언어 임베딩을 활용한 교차 언어 추천, (iii) 강화 학습 기반 순위 최적화, (iv) 설명 가능성을 위한 그래프 기반 경로 추출 등이 제시된다. 전체적으로 RokomatiBG는 방글라어 도서 추천 연구에 필요한 모든 핵심 요소—대규모 상호작용, 풍부한 사이드 피처, 복합 관계—를 제공함으로써 저자원 문화 영역에서의 추천 시스템 개발을 가속화한다.
댓글 및 학술 토론
Loading comments...
의견 남기기