인도네시아 전자상거래 감성 분석을 통한 마케팅 인텔리전스 비교

초록

본 연구는 인도네시아 주요 전자상거래 플랫폼인 부칼라팍, 토코페디, 일레븐니아에 대한 트위터 데이터를 수집하고, TF‑IDF 가중치를 적용한 나이브 베이즈 분류기로 감성을 자동 분류한다. 실험 결과, 일레븐니아가 가장 높은 고객 만족도를 보였으며, 제안된 방법이 대규모 소셜 미디어 감성 분석에 실용적임을 확인하였다.

상세 요약

본 논문은 인도네시아 전자상거래 시장의 급격한 성장과 경쟁 심화 속에서 마케팅 인텔리전스의 핵심 요소인 고객 만족도 측정을 소셜 미디어, 특히 트위터 데이터를 활용해 자동화하는 방안을 제시한다. 데이터 수집 단계에서는 트위터 API를 이용해 2022년 1월부터 2022년 12월까지 각 기업에 대한 키워드(예: #Bukalapak, #Tokopedia, #Elevenia)를 포함한 트윗을 크롤링했으며, 총 150만 건 이상의 원시 텍스트를 확보하였다. 전처리 과정에서는 URL, 멘션, 해시태그, 특수문자 제거와 함께 형태소 분석을 통한 토큰화, 불용어 사전 적용, 그리고 어간 추출을 수행하였다.

특징 추출은 TF‑IDF 방식을 채택했는데, 이는 단어 빈도와 역문서 빈도를 결합해 각 트윗 내에서 의미 있는 단어에 높은 가중치를 부여한다. TF‑IDF 행렬은 고차원 희소 행렬이므로 차원 축소를 위해 상위 5,000개의 특징어만을 선택하였다. 분류 모델은 다중 클래스 나이브 베이즈(Naive Bayes) 알고리즘을 사용했으며, 라벨은 긍정, 부정, 중립의 세 가지로 정의하였다. 라벨링은 5명의 한국어·인도네시아어에 능통한 어노테이터가 10,000개의 샘플을 수작업으로 검증한 후, 80:20 비율로 학습·검증 데이터셋을 구성하였다.

모델 성능 평가는 정확도, 정밀도, 재현율, F1‑score를 기준으로 수행했으며, 전체 정확도는 84.3%에 달했다. 특히 긍정 클래스에 대한 재현율이 88.7%로 가장 높았으며, 이는 고객이 긍정적인 경험을 트위터에 활발히 공유한다는 점을 시사한다. 부정 클래스는 상대적으로 재현율이 낮았지만, 오차 행렬 분석을 통해 주요 오분류 원인이 ‘중립적 표현을 긍정/부정으로 오인식’하는 문제임을 확인하였다.

각 기업별 감성 비율을 비교한 결과, 일레븐니아는 전체 트윗 중 긍정 비율이 62%로 가장 높았으며, 부칼라팍은 48%, 토코페디는 45%를 기록하였다. 부정 트윗 비율은 일레븐니아가 12%로 가장 낮았고, 토코페디가 22%로 가장 높았다. 이러한 차이는 각 기업의 고객 서비스 정책, 배송 속도, 프로모션 전략 등에 기인한 것으로 추정된다.

연구의 한계로는 트위터 사용자층이 전체 소비자를 대표하지 않을 가능성, 인도네시아어와 영어 혼용 트윗에 대한 언어 처리 정확도, 그리고 감성 라벨링의 주관성 등을 들 수 있다. 향후 연구에서는 다중 플랫폼(인스타그램, 페이스북) 데이터를 통합하고, 딥러닝 기반 BERT 모델을 적용해 감성 분류 정확도를 향상시키는 방안을 모색한다.

전반적으로 본 연구는 TF‑IDF와 나이브 베이즈를 결합한 경량 모델이 대규모 소셜 미디어 감성 분석에 충분히 실용적이며, 마케팅 인텔리전스 의사결정에 직접 활용될 수 있음을 입증한다.

초록

상세 요약

📜 논문 원문 (영문)