Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti

World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching infor...

Full description

Bibliographic Details
Main Authors: Tomas Grigalis, Leonardas Marozas, Lukas Radvilavičius
Format: Article
Language:English
Published: Vilnius Gediminas Technical University 2012-04-01
Series:Mokslas: Lietuvos Ateitis
Subjects:
Online Access:http://journals.vgtu.lt/index.php/MLA/article/view/4484
Description
Summary:World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks. Santrauka Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti. Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill.
ISSN:2029-2341
2029-2252