Detecting Vietnamese Opinion Spam

Reading time: 6 minute
...

📝 Original Info

  • Title: Detecting Vietnamese Opinion Spam
  • ArXiv ID: 1905.06112
  • Date: 2019-05-16
  • Authors: Researchers from original ArXiv paper

📝 Abstract

Recently, Vietnamese Natural Language Processing has been researched by experts in academic and business. However, the existing papers have been focused only on information classification or extraction from documents. Nowadays, with quickly development of the e-commerce websites, forums and social networks, the products, people, organizations or wonders are targeted of comments or reviews of the network communities. Many people often use that reviews to make their decision on something. Whereas, there are many people or organizations use the reviews to mislead readers. Therefore, it is so necessary to detect those bad behaviors in reviews. In this paper, we research this problem and propose an appropriate method for detecting Vietnamese reviews being spam or non-spam. The accuracy of our method is up to 90%.

💡 Deep Analysis

Deep Dive into Detecting Vietnamese Opinion Spam.

Recently, Vietnamese Natural Language Processing has been researched by experts in academic and business. However, the existing papers have been focused only on information classification or extraction from documents. Nowadays, with quickly development of the e-commerce websites, forums and social networks, the products, people, organizations or wonders are targeted of comments or reviews of the network communities. Many people often use that reviews to make their decision on something. Whereas, there are many people or organizations use the reviews to mislead readers. Therefore, it is so necessary to detect those bad behaviors in reviews. In this paper, we research this problem and propose an appropriate method for detecting Vietnamese reviews being spam or non-spam. The accuracy of our method is up to 90%.

📄 Full Content

1

Phát hiện đánh giá spam cho tiếng Việt (Detecting Vietnamese Opinion Spam)

Dương Hiển Hồng Thạch1,2,3 hongthach.duong@gmail.com Vũ Đại Thắng1,2,3 daithang.vu@gmail.com

Ngô Minh Vương1,2,3 vuong.cs@gmail.com 1Phòng Nghiên Cứu và Phát Triển, tập đoàn VNG 2 Khoa Công Nghệ Thông Tin, Đại học Tôn Đức Thắng 3 Khoa Khoa Học và Kỹ Thuật Máy Tính, Đại Bách Khoa TpHCM

Abstract. Recently, Vietnamese Natural Language Processing has been researched by experts in academic and business. However, the existing papers have been focused only on information classification or extraction from documents. Nowadays, with quickly development of the e- commerce websites, forums and social networks, the products, people, organizations or wonders are targeted of comments or reviews of the network communities. Many people often use that reviews to make their decision on something. Whereas, there are many people or organizations use the reviews to mislead readers. Therefore, it is so necessary to detect those bad behaviors in reviews. In this paper, we research this problem and propose an appropriate method for detecting Vietnamese reviews being spam or non-spam. The accuracy of our method is up to 90%. Keywords: opinion spam, review spam, data mining, machine learning, text classification

Abstract - Trong những năm gần đây, xử lý ngôn ngữ văn bản tiếng Việt đã thu hút đối với nhiều chuyên gia trong giới học thuật cũng như trong công nghiệp. Các công trình trước đây chủ yếu tập trung vào việc phân loại hay rút trích thông tin từ văn bản. Chúng không phải là nhận diện tình cảm được thể hiện trong văn bản. Ngày nay với sự phát triển của các website thương mại điện tử, các diễn đàn, mạng xã hội tiếng Việt nên có nhiều đối tượng như sản phẩm, con người, tổ chức, thắng cảnh được người dùng bình luận và đánh giá trên các website này. Nhiều người thường sử dụng các đánh giá này để đưa ra quyết định của họ. Trong khi đó, có nhiều cá nhân, tổ chức sử dụng các đánh giá bình luận nhằm mục đích đánh lừa người khác. Vì vậy việc phát hiện hành vi spam trong các đánh giá là điều cần thiết. Công trình của chúng tôi tập trung vào giải quyết vấn đề trên và đề xuất một phương pháp phù hợp cho việc đánh giá các bình luận tiếng Việt là spam hay không spam, với độ chính xác 90%. Từ khóa: classification, spam review, opinion spam I. GIỚI THIỆU Đánh giá của người dùng về sản phẩm là những nhận định của người dùng về sản phẩm ấy. Người đọc sẽ tham khảo đánh giá để quyết định có nên mua sản phẩm hay không. Hãng sản xuất tham khảo đánh giá để quyết định chiến lược kinh doanh phù hợp cho sản phẩm. Nhìn chung, một đánh giá có những thành phần sau ([6]):  Tiêu đề: mô tả ngắn về đánh giá  Nội dung: ý kiến chính của người dùng  Ngày giờ: thời gian đánh giá xuất hiện  Sản phẩm: đối tượng của đánh giá  Người đánh giá: tác giả của đánh giá  Điểm số: thang điểm người dùng dành cho sản phẩm Đánh giá spam là những đánh giá chứa hành vi spam. Những hành vi này (thường vì mục đích thương mại hay mục đích cá nhân của người viết) nhằm thay đổi nhìn nhận của người đọc về sản phẩm được đánh giá. Cũng theo [6], có ba loại đánh giá spam:

  1. Những đánh giá không thực: loại đánh giá này thường đưa ra những nhận xét tích cực quá mức hoặc đưa ra những nhận xét tiêu cực quá khắt khe. Chúng sẽ làm danh tiếng sản phẩm được nâng lên hoặc bị phá hoại. Đây là loại khó phát hiện nhất của đánh giá spam.
  2. Những đánh giá vào hãng sản xuất: đây mặc dù là những đánh giá chứa nhận định khen chê, nhưng chúng không hướng vào sản phẩm mà lại hướng vào hãng sản xuất, cửa hàng bán sản phẩm. Đôi khi những đánh giá này cũng gây ra sự nhầm lẫn cho người đọc. Ví dụ với đánh giá sau: “Sony là laptop số một, không laptop nào qua được sony” sẽ được xem là đánh giá spam loại này.
  3. Những đánh giá vô nghĩa: loại đánh giá này thường không chứa nhận định và không có giá trị tham khảo. Đây thường là những câu hỏi, những thông số kỹ thuật, quảng cáo,… II. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi sẽ trình bày những nghiên cứu liên quan đến lĩnh vực phát hiện đánh giá spam. Khai phá quan điểm và nhận định của đánh giá: trong lĩnh vực này, đã có những nghiên cứu cố gắng rút ra và tập hợp các đánh giá tích cực và tiêu cực từ các đánh giá sản phẩm [5, 14]. Những nghiên cứu đó tập trung chủ yếu vào nội dung của đánh giá và rất hữu dụng trong việc xác định các quan 2

điểm trái chiều trong đánh giá. Tuy nhiên những nghiên cứu này chưa phát hiện ra được đánh giá spam, trừ khi có thêm những đặc trưng khác. Phát hiện ba loại đánh giá spam: trong nghiên cứu [6], tác giả định nghĩa ba loại đánh giá spam như đã nêu trong phần giới thiệu. Tác giả tạo ra một tập đặc trưng kết hợp các thuộc tính của đánh giá, người đánh giá và sản phẩm. Sau đó tập đặc trưng này được tác giả sử dụng kết hợp với các kỹ thuật phân loại để gán nhãn cho từng đánh giá. Những đánh giá vào hãng sản xuất và những đánh giá v

…(Full text truncated)…

📸 Image Gallery

cover.png page_2.webp page_3.webp

Reference

This content is AI-processed based on ArXiv data.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut