Pengkelasan dokumen web menggunakan teknik vector machine (SVM)

Dewasa ini, kebanyakan enjin carian di internet menggunakan sistem pengindeksan subjek berbanding pengkelasan dokumen. Dalam sistem pengindeksan subjek, kosa kata atau kata kunci yang terkawal digunakan untuk menetapkan istilah pengindeksan pada dokumendokumen web. Manakala, pengkelasan dokumen pula...

Full description

Bibliographic Details
Main Authors: Othman, Mohd. Shahizan, Dollah, Rozilawati @ Md. Zain, Mi Yusuf, Lizawati, Salim, Juhana, Shukur, Zarina, Chin, Mae Yen
Format: Conference or Workshop Item
Language:English
Published: 2005
Subjects:
Online Access:http://eprints.utm.my/3389/1/Pengkelasan_Dokumen_Web_Menggunakan_Teknik.pdf
Description
Summary:Dewasa ini, kebanyakan enjin carian di internet menggunakan sistem pengindeksan subjek berbanding pengkelasan dokumen. Dalam sistem pengindeksan subjek, kosa kata atau kata kunci yang terkawal digunakan untuk menetapkan istilah pengindeksan pada dokumendokumen web. Manakala, pengkelasan dokumen pula akan mengkelaskan dokumen-dokumen web dalam satu struktur hirarki berdasarkan kategori subjek. Pengindeksan berdasarkan kata kunci berkemampuan untuk mencari dokumen-dokumen yang mengandungi kata kunci yang spesifik. Walau bagaimanapunia sukar untuk mengenalpasti dokumen-dokumen yang mempunyai kategori yang sama. Oleh yang demikian, pengkelasan teks secara automatik adalah diperlukan. Ini bertujuan untuk mengkelaskan dokumen-dokumen ke dalam kategoriketegori yang berbeza berdasarkan kandungan teks. Sehubungan dengan itu, kertas kerja ini akan membincangkan tentang kajian pengkelasan teks dengan menggunakan kaedah Support Vector Machine (SVM). Set data yang digunakan dalam kajian ini diperolehi daripada Bank Search Information Consultancy Ltd. dan Jabatan Sains Komputer di University of Reading. Set data ini dipecahkan kepada empat kategori iaitu perbankan dan kewangan, bahasa pengaturcaraan, sains dan sukan. Hasil kajian ini menunjukkan peratus ketepatan pengkelasan dokumen web untuk set data yang digunakan adalah rendah dan kurang memuaskan.