Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą

Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka...

Full description

Bibliographic Details
Main Authors: Pavel Stefanovič, Olga Kurasova
Format: Article
Language:English
Published: Vilnius University Press 2013-01-01
Series:Informacijos Mokslai
Online Access:http://www.journals.vu.lt/informacijos-mokslai/article/view/2058
_version_ 1818559042798223360
author Pavel Stefanovič
Olga Kurasova
author_facet Pavel Stefanovič
Olga Kurasova
author_sort Pavel Stefanovič
collection DOAJ
description Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai, skirti klasifi kuotiems duomenims, kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo, kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito, antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skaičiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai, paimti iš Lietuvos Respublikos Seimo dokumentų bazės. Similarity analysis of text documents by self-organizing maps and k-means  Pavel Stefanovič, Olga Kurasova Summary In this paper, we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM, the similarities of documents can be observed visually. Both methods can be used only for numerical information, so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality, when the classifi ed data are analysed, we propose two new measures: distances between SOM cells, corresponding to data items assigned to the same class, and the distance between centres of SOM cells, corresponding to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality, we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from particular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania. font-family: Calibri, sans-serif;">
first_indexed 2024-12-14T00:20:12Z
format Article
id doaj.art-edf0bddbc06d46a7a303ba1963a7615d
institution Directory Open Access Journal
issn 1392-0561
1392-1487
language English
last_indexed 2024-12-14T00:20:12Z
publishDate 2013-01-01
publisher Vilnius University Press
record_format Article
series Informacijos Mokslai
spelling doaj.art-edf0bddbc06d46a7a303ba1963a7615d2022-12-21T23:25:16ZengVilnius University PressInformacijos Mokslai1392-05611392-14872013-01-016510.15388/Im.2013.0.2058Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodąPavel StefanovičOlga KurasovaStraipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai, skirti klasifi kuotiems duomenims, kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo, kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito, antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skaičiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai, paimti iš Lietuvos Respublikos Seimo dokumentų bazės. Similarity analysis of text documents by self-organizing maps and k-means  Pavel Stefanovič, Olga Kurasova Summary In this paper, we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM, the similarities of documents can be observed visually. Both methods can be used only for numerical information, so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality, when the classifi ed data are analysed, we propose two new measures: distances between SOM cells, corresponding to data items assigned to the same class, and the distance between centres of SOM cells, corresponding to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality, we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from particular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania. font-family: Calibri, sans-serif;">http://www.journals.vu.lt/informacijos-mokslai/article/view/2058
spellingShingle Pavel Stefanovič
Olga Kurasova
Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
Informacijos Mokslai
title Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
title_full Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
title_fullStr Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
title_full_unstemmed Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
title_short Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
title_sort tekstiniu dokumentu panasumu paieska naudojant saviorganizuojancius neuroninius tinklus ir k vidurkiu metoda
url http://www.journals.vu.lt/informacijos-mokslai/article/view/2058
work_keys_str_mv AT pavelstefanovic tekstiniudokumentupanasumupaieskanaudojantsaviorganizuojanciusneuroniniustinklusirkvidurkiumetoda
AT olgakurasova tekstiniudokumentupanasumupaieskanaudojantsaviorganizuojanciusneuroniniustinklusirkvidurkiumetoda