Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą
Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Vilnius University Press
2013-01-01
|
Series: | Informacijos Mokslai |
Online Access: | http://www.journals.vu.lt/informacijos-mokslai/article/view/2058 |
_version_ | 1818559042798223360 |
---|---|
author | Pavel Stefanovič Olga Kurasova |
author_facet | Pavel Stefanovič Olga Kurasova |
author_sort | Pavel Stefanovič |
collection | DOAJ |
description | Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai, skirti klasifi kuotiems duomenims, kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo, kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito, antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skaičiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai, paimti iš Lietuvos Respublikos Seimo dokumentų bazės.
Similarity analysis of text documents by self-organizing maps and k-means
Pavel Stefanovič, Olga Kurasova
Summary
In this paper, we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM, the similarities of documents can be observed visually. Both methods can be used only for numerical information, so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality, when the classifi ed data are analysed, we propose two new measures: distances between SOM cells, corresponding to data items assigned to the same class, and the distance between centres of SOM cells, corresponding to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality, we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from particular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania.
font-family: Calibri, sans-serif;"> |
first_indexed | 2024-12-14T00:20:12Z |
format | Article |
id | doaj.art-edf0bddbc06d46a7a303ba1963a7615d |
institution | Directory Open Access Journal |
issn | 1392-0561 1392-1487 |
language | English |
last_indexed | 2024-12-14T00:20:12Z |
publishDate | 2013-01-01 |
publisher | Vilnius University Press |
record_format | Article |
series | Informacijos Mokslai |
spelling | doaj.art-edf0bddbc06d46a7a303ba1963a7615d2022-12-21T23:25:16ZengVilnius University PressInformacijos Mokslai1392-05611392-14872013-01-016510.15388/Im.2013.0.2058Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodąPavel StefanovičOlga KurasovaStraipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai, skirti klasifi kuotiems duomenims, kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo, kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito, antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skaičiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai, paimti iš Lietuvos Respublikos Seimo dokumentų bazės. Similarity analysis of text documents by self-organizing maps and k-means Pavel Stefanovič, Olga Kurasova Summary In this paper, we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM, the similarities of documents can be observed visually. Both methods can be used only for numerical information, so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality, when the classifi ed data are analysed, we propose two new measures: distances between SOM cells, corresponding to data items assigned to the same class, and the distance between centres of SOM cells, corresponding to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality, we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from particular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania. font-family: Calibri, sans-serif;">http://www.journals.vu.lt/informacijos-mokslai/article/view/2058 |
spellingShingle | Pavel Stefanovič Olga Kurasova Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą Informacijos Mokslai |
title | Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą |
title_full | Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą |
title_fullStr | Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą |
title_full_unstemmed | Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą |
title_short | Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą |
title_sort | tekstiniu dokumentu panasumu paieska naudojant saviorganizuojancius neuroninius tinklus ir k vidurkiu metoda |
url | http://www.journals.vu.lt/informacijos-mokslai/article/view/2058 |
work_keys_str_mv | AT pavelstefanovic tekstiniudokumentupanasumupaieskanaudojantsaviorganizuojanciusneuroniniustinklusirkvidurkiumetoda AT olgakurasova tekstiniudokumentupanasumupaieskanaudojantsaviorganizuojanciusneuroniniustinklusirkvidurkiumetoda |