📝 Original Info
- Title: Detecting Vietnamese Opinion Spam
- ArXiv ID: 1905.06112
- Date: 2019-05-16
- Authors: Researchers from original ArXiv paper
📝 Abstract
Recently, Vietnamese Natural Language Processing has been researched by experts in academic and business. However, the existing papers have been focused only on information classification or extraction from documents. Nowadays, with quickly development of the e-commerce websites, forums and social networks, the products, people, organizations or wonders are targeted of comments or reviews of the network communities. Many people often use that reviews to make their decision on something. Whereas, there are many people or organizations use the reviews to mislead readers. Therefore, it is so necessary to detect those bad behaviors in reviews. In this paper, we research this problem and propose an appropriate method for detecting Vietnamese reviews being spam or non-spam. The accuracy of our method is up to 90%.
💡 Deep Analysis
Deep Dive into Detecting Vietnamese Opinion Spam.
Recently, Vietnamese Natural Language Processing has been researched by experts in academic and business. However, the existing papers have been focused only on information classification or extraction from documents. Nowadays, with quickly development of the e-commerce websites, forums and social networks, the products, people, organizations or wonders are targeted of comments or reviews of the network communities. Many people often use that reviews to make their decision on something. Whereas, there are many people or organizations use the reviews to mislead readers. Therefore, it is so necessary to detect those bad behaviors in reviews. In this paper, we research this problem and propose an appropriate method for detecting Vietnamese reviews being spam or non-spam. The accuracy of our method is up to 90%.
📄 Full Content
1
Phát hiện đánh giá spam cho tiếng Việt
(Detecting Vietnamese Opinion Spam)
Dương Hiển Hồng Thạch1,2,3
hongthach.duong@gmail.com
Vũ Đại Thắng1,2,3
daithang.vu@gmail.com
Ngô Minh Vương1,2,3
vuong.cs@gmail.com
1Phòng Nghiên Cứu và Phát Triển, tập đoàn VNG
2 Khoa Công Nghệ Thông Tin, Đại học Tôn Đức Thắng
3 Khoa Khoa Học và Kỹ Thuật Máy Tính, Đại Bách Khoa TpHCM
Abstract.
Recently,
Vietnamese
Natural
Language
Processing has been researched by experts in academic and
business. However, the existing papers have been focused
only on information classification or extraction from
documents. Nowadays, with quickly development of the e-
commerce websites, forums and social networks, the
products, people, organizations or wonders are targeted of
comments or reviews of the network communities. Many
people often use that reviews to make their decision on
something. Whereas, there are many people or organizations
use the reviews to mislead readers. Therefore, it is so
necessary to detect those bad behaviors in reviews. In this
paper, we research this problem and propose an appropriate
method for detecting Vietnamese reviews being spam or
non-spam. The accuracy of our method is up to 90%.
Keywords: opinion spam, review spam, data mining,
machine learning, text classification
Abstract - Trong những năm gần đây, xử lý ngôn ngữ văn bản tiếng
Việt đã thu hút đối với nhiều chuyên gia trong giới học thuật cũng
như trong công nghiệp. Các công trình trước đây chủ yếu tập trung
vào việc phân loại hay rút trích thông tin từ văn bản. Chúng không
phải là nhận diện tình cảm được thể hiện trong văn bản. Ngày nay
với sự phát triển của các website thương mại điện tử, các diễn đàn,
mạng xã hội tiếng Việt nên có nhiều đối tượng như sản phẩm, con
người, tổ chức, thắng cảnh được người dùng bình luận và đánh giá
trên các website này. Nhiều người thường sử dụng các đánh giá này
để đưa ra quyết định của họ. Trong khi đó, có nhiều cá nhân, tổ chức
sử dụng các đánh giá bình luận nhằm mục đích đánh lừa người
khác. Vì vậy việc phát hiện hành vi spam trong các đánh giá là điều
cần thiết. Công trình của chúng tôi tập trung vào giải quyết vấn đề
trên và đề xuất một phương pháp phù hợp cho việc đánh giá các
bình luận tiếng Việt là spam hay không spam, với độ chính xác 90%.
Từ khóa: classification, spam review, opinion spam
I. GIỚI THIỆU
Đánh giá của người dùng về sản phẩm là những nhận định
của người dùng về sản phẩm ấy. Người đọc sẽ tham khảo đánh
giá để quyết định có nên mua sản phẩm hay không. Hãng sản
xuất tham khảo đánh giá để quyết định chiến lược kinh doanh
phù hợp cho sản phẩm. Nhìn chung, một đánh giá có những
thành phần sau ([6]):
Tiêu đề: mô tả ngắn về đánh giá
Nội dung: ý kiến chính của người dùng
Ngày giờ: thời gian đánh giá xuất hiện
Sản phẩm: đối tượng của đánh giá
Người đánh giá: tác giả của đánh giá
Điểm số: thang điểm người dùng dành cho sản phẩm
Đánh giá spam là những đánh giá chứa hành vi spam.
Những hành vi này (thường vì mục đích thương mại hay mục
đích cá nhân của người viết) nhằm thay đổi nhìn nhận của
người đọc về sản phẩm được đánh giá. Cũng theo [6], có ba
loại đánh giá spam:
- Những đánh giá không thực: loại đánh giá này thường
đưa ra những nhận xét tích cực quá mức hoặc đưa ra những
nhận xét tiêu cực quá khắt khe. Chúng sẽ làm danh tiếng sản
phẩm được nâng lên hoặc bị phá hoại. Đây là loại khó phát
hiện nhất của đánh giá spam.
- Những đánh giá vào hãng sản xuất: đây mặc dù là
những đánh giá chứa nhận định khen chê, nhưng chúng
không hướng vào sản phẩm mà lại hướng vào hãng sản xuất,
cửa hàng bán sản phẩm. Đôi khi những đánh giá này cũng
gây ra sự nhầm lẫn cho người đọc. Ví dụ với đánh giá sau:
“Sony là laptop số một, không laptop nào qua được sony” sẽ
được xem là đánh giá spam loại này.
- Những đánh giá vô nghĩa: loại đánh giá này thường
không chứa nhận định và không có giá trị tham khảo. Đây
thường là những câu hỏi, những thông số kỹ thuật, quảng
cáo,…
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong phần này, chúng tôi sẽ trình bày những nghiên cứu
liên quan đến lĩnh vực phát hiện đánh giá spam.
Khai phá quan điểm và nhận định của đánh giá: trong lĩnh
vực này, đã có những nghiên cứu cố gắng rút ra và tập hợp
các đánh giá tích cực và tiêu cực từ các đánh giá sản phẩm [5,
14]. Những nghiên cứu đó tập trung chủ yếu vào nội dung
của đánh giá và rất hữu dụng trong việc xác định các quan
2
điểm trái chiều trong đánh giá. Tuy nhiên những nghiên cứu
này chưa phát hiện ra được đánh giá spam, trừ khi có thêm
những đặc trưng khác.
Phát hiện ba loại đánh giá spam: trong nghiên cứu [6], tác
giả định nghĩa ba loại đánh giá spam như đã nêu trong phần
giới thiệu. Tác giả tạo ra một tập đặc trưng kết hợp các thuộc
tính của đánh giá, người đánh giá và sản phẩm. Sau đó tập
đặc trưng này được tác giả sử dụng kết hợp với các kỹ thuật
phân loại để gán nhãn cho từng đánh giá. Những đánh giá vào
hãng sản xuất và những đánh giá v
…(Full text truncated)…
📸 Image Gallery
Reference
This content is AI-processed based on ArXiv data.