Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học
Nghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các t...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | Vietnamese |
Published: |
Can Tho University Publisher
2019-08-01
|
Series: | Tạp chí Khoa học Đại học Cần Thơ |
Subjects: | |
Online Access: | https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3336 |
_version_ | 1797286850031779840 |
---|---|
author | Trần Thanh Điện Thái Nhựt Thanh Nguyễn Thái Nghe |
author_facet | Trần Thanh Điện Thái Nhựt Thanh Nguyễn Thái Nghe |
author_sort | Trần Thanh Điện |
collection | DOAJ |
description | Nghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các tạp chí lớn có rất nhiều chủ đề như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM có hơn 2.000 chủ đề, do vậy các tác giả và ban biên tập mất khá nhiều thời gian khi xác định một bài viết thuộc nhóm chủ đề nào trước khi nộp bài cho các tạp chí, hội thảo. Bài viết này đề xuất giải pháp tự động rút trích thông tin và phân loại một bài báo khoa học vào chủ đề nào đó. Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hóa và phân loại bằng kỹ thuật máy học. Thực nghiệm được xây dựng trên tập dữ liệu là các bài báo khoa học đã được gửi đăng trên Tạp chí khoa học của Trường Đại học Cần Thơ. Các kỹ thuật máy học véc-tơ hỗ trợ (SVM), Bayes thơ ngây (Naïve Bayes), và k-láng giềng gần nhất (kNN) đã được sử dụng để so sánh nhằm tìm ra kết quả tốt nhất. Kết quả thực nghiệm cho thấy kỹ thuật SVM đã cho độ chính xác > 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học. |
first_indexed | 2024-03-07T18:24:17Z |
format | Article |
id | doaj.art-e681251330ef46c89dc7765c282578ed |
institution | Directory Open Access Journal |
issn | 1859-2333 2815-5599 |
language | Vietnamese |
last_indexed | 2024-03-07T18:24:17Z |
publishDate | 2019-08-01 |
publisher | Can Tho University Publisher |
record_format | Article |
series | Tạp chí Khoa học Đại học Cần Thơ |
spelling | doaj.art-e681251330ef46c89dc7765c282578ed2024-03-02T07:08:24ZvieCan Tho University PublisherTạp chí Khoa học Đại học Cần Thơ1859-23332815-55992019-08-0155410.22144/ctu.jvn.2019.093Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy họcTrần Thanh Điện0Thái Nhựt Thanh1Nguyễn Thái Nghe2Nhà Xuất bản Đại học Cần Thơ, Nhà Xuất bản Đại học Cần ThơTòa soạn Tạp chí Khoa học Trường Đại học Cần Thơ, Thành lập trên cơ sở Tòa soạn Tạp chí Khoa học Trường Đại học Cần ThơBM. Hệ thống Thông tin, K.Công nghệ Thông tin &Truyền thôngNghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các tạp chí lớn có rất nhiều chủ đề như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM có hơn 2.000 chủ đề, do vậy các tác giả và ban biên tập mất khá nhiều thời gian khi xác định một bài viết thuộc nhóm chủ đề nào trước khi nộp bài cho các tạp chí, hội thảo. Bài viết này đề xuất giải pháp tự động rút trích thông tin và phân loại một bài báo khoa học vào chủ đề nào đó. Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hóa và phân loại bằng kỹ thuật máy học. Thực nghiệm được xây dựng trên tập dữ liệu là các bài báo khoa học đã được gửi đăng trên Tạp chí khoa học của Trường Đại học Cần Thơ. Các kỹ thuật máy học véc-tơ hỗ trợ (SVM), Bayes thơ ngây (Naïve Bayes), và k-láng giềng gần nhất (kNN) đã được sử dụng để so sánh nhằm tìm ra kết quả tốt nhất. Kết quả thực nghiệm cho thấy kỹ thuật SVM đã cho độ chính xác > 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học.https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3336Bayes thơ ngâyk-láng giềng gần nhấtmáy học véc-tơ hỗ trợphân loại văn bản |
spellingShingle | Trần Thanh Điện Thái Nhựt Thanh Nguyễn Thái Nghe Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học Tạp chí Khoa học Đại học Cần Thơ Bayes thơ ngây k-láng giềng gần nhất máy học véc-tơ hỗ trợ phân loại văn bản |
title | Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học |
title_full | Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học |
title_fullStr | Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học |
title_full_unstemmed | Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học |
title_short | Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học |
title_sort | giai phap phan loai bai bao khoa hoc bang ki thuat may hoc |
topic | Bayes thơ ngây k-láng giềng gần nhất máy học véc-tơ hỗ trợ phân loại văn bản |
url | https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3336 |
work_keys_str_mv | AT tranthanhđien giaiphapphanloaibaibaokhoahocbangkithuatmayhoc AT thainhutthanh giaiphapphanloaibaibaokhoahocbangkithuatmayhoc AT nguyenthainghe giaiphapphanloaibaibaokhoahocbangkithuatmayhoc |