Tikimybinis dažnų posekių paieškos algoritmas

Dažnų posekių paieška didelėse duomenų bazėse yra svarbi biologinių, klimato, fi nansinių ir daugelio kitų duomenų bazių analizei. Tikslieji algoritmai, skirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę. Jeigu duomenų bazė didelė, tai dažnų posekių paieška yra lėta arba reikalingi...

Full description

Bibliographic Details
Main Authors: Julija Pragarauskaitė, Gintautas Dzemyda
Format: Article
Language:English
Published: Vilnius University Press 2009-01-01
Series:Informacijos Mokslai
Online Access:http://www.journals.vu.lt/informacijos-mokslai/article/view/3211
_version_ 1818843990406987776
author Julija Pragarauskaitė
Gintautas Dzemyda
author_facet Julija Pragarauskaitė
Gintautas Dzemyda
author_sort Julija Pragarauskaitė
collection DOAJ
description Dažnų posekių paieška didelėse duomenų bazėse yra svarbi biologinių, klimato, fi nansinių ir daugelio kitų duomenų bazių analizei. Tikslieji algoritmai, skirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę. Jeigu duomenų bazė didelė, tai dažnų posekių paieška yra lėta arba reikalingi superkompiuteriai. Straipsnyje pasiūlytas naujas tikimybinis dažnų posekių paieškos algoritmas, kuris analizuoja tam tikru būdu sudarytą pradinės duomenų bazės atsitiktinę imtį. Remiantis šia analize daromos statistinės išvados apie dažnus posekius pradinėje duomenų bazėje. Šis algoritmas nėra tikslus, tačiau veikia daug greičiau negu tikslieji algoritmai ir tinka žvalgomajai statistinei analizei. Tikimybinio algoritmo klaidų tikimybės įvertinamos statistiniais metodais. Tikimybinis algoritmas gali būti derinamas su tiksliaisiais dažnų posekių paieškos algoritmais. Jį galima taikyti ir bendrajam struktūrų paieškos uždaviniui. Probabilistic Algorithm for Mining Frequent Sequences Julija Pragarauskaitė, Gintautas Dzemyda Summary Frequent sequence mining in large volume databases is important in many areas, e.g., biological, climate, fi nancial databases. Exact frequent sequence mining algorithms usually read the whole database many times, and if the database is large enough, then frequent sequence mining is very long or requires supercomputers. A new probabilistic algorithm for mining frequent sequences is proposed. It analyzes a random sample of the initial database. The algorithm makes decisions about the initial database according to the random sample analysis results and performs much faster than the exact mining algorithms. The probability of errors made by the probabilistic algorithm is estimated using statistical methods. The algorithm can be used together with the exact frequent sequence mining algorithms.
first_indexed 2024-12-19T05:06:39Z
format Article
id doaj.art-221ab89cc02245b3a95f6330b8283d03
institution Directory Open Access Journal
issn 1392-0561
1392-1487
language English
last_indexed 2024-12-19T05:06:39Z
publishDate 2009-01-01
publisher Vilnius University Press
record_format Article
series Informacijos Mokslai
spelling doaj.art-221ab89cc02245b3a95f6330b8283d032022-12-21T20:34:55ZengVilnius University PressInformacijos Mokslai1392-05611392-14872009-01-015010.15388/Im.2009.0.3211Tikimybinis dažnų posekių paieškos algoritmasJulija PragarauskaitėGintautas DzemydaDažnų posekių paieška didelėse duomenų bazėse yra svarbi biologinių, klimato, fi nansinių ir daugelio kitų duomenų bazių analizei. Tikslieji algoritmai, skirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę. Jeigu duomenų bazė didelė, tai dažnų posekių paieška yra lėta arba reikalingi superkompiuteriai. Straipsnyje pasiūlytas naujas tikimybinis dažnų posekių paieškos algoritmas, kuris analizuoja tam tikru būdu sudarytą pradinės duomenų bazės atsitiktinę imtį. Remiantis šia analize daromos statistinės išvados apie dažnus posekius pradinėje duomenų bazėje. Šis algoritmas nėra tikslus, tačiau veikia daug greičiau negu tikslieji algoritmai ir tinka žvalgomajai statistinei analizei. Tikimybinio algoritmo klaidų tikimybės įvertinamos statistiniais metodais. Tikimybinis algoritmas gali būti derinamas su tiksliaisiais dažnų posekių paieškos algoritmais. Jį galima taikyti ir bendrajam struktūrų paieškos uždaviniui. Probabilistic Algorithm for Mining Frequent Sequences Julija Pragarauskaitė, Gintautas Dzemyda Summary Frequent sequence mining in large volume databases is important in many areas, e.g., biological, climate, fi nancial databases. Exact frequent sequence mining algorithms usually read the whole database many times, and if the database is large enough, then frequent sequence mining is very long or requires supercomputers. A new probabilistic algorithm for mining frequent sequences is proposed. It analyzes a random sample of the initial database. The algorithm makes decisions about the initial database according to the random sample analysis results and performs much faster than the exact mining algorithms. The probability of errors made by the probabilistic algorithm is estimated using statistical methods. The algorithm can be used together with the exact frequent sequence mining algorithms.http://www.journals.vu.lt/informacijos-mokslai/article/view/3211
spellingShingle Julija Pragarauskaitė
Gintautas Dzemyda
Tikimybinis dažnų posekių paieškos algoritmas
Informacijos Mokslai
title Tikimybinis dažnų posekių paieškos algoritmas
title_full Tikimybinis dažnų posekių paieškos algoritmas
title_fullStr Tikimybinis dažnų posekių paieškos algoritmas
title_full_unstemmed Tikimybinis dažnų posekių paieškos algoritmas
title_short Tikimybinis dažnų posekių paieškos algoritmas
title_sort tikimybinis daznu posekiu paieskos algoritmas
url http://www.journals.vu.lt/informacijos-mokslai/article/view/3211
work_keys_str_mv AT julijapragarauskaite tikimybinisdaznuposekiupaieskosalgoritmas
AT gintautasdzemyda tikimybinisdaznuposekiupaieskosalgoritmas