Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams

Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima...

Full description

Bibliographic Details
Main Authors: Jurgita Kapočiūtė-Dzikienė, Andrius Utka, Ligita Šarkutė
Format: Article
Language:deu
Published: Vilnius University 2016-03-01
Series:Kalbotyra
Subjects:
Online Access:http://www.journals.vu.lt/kalbotyra/article/view/7674
_version_ 1818350664144650240
author Jurgita Kapočiūtė-Dzikienė
Andrius Utka
Ligita Šarkutė
author_facet Jurgita Kapočiūtė-Dzikienė
Andrius Utka
Ligita Šarkutė
author_sort Jurgita Kapočiūtė-Dzikienė
collection DOAJ
description Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo Ligita Šarkutė Viešosios politikos ir administravimo institutas Kauno technologijos universitetas K. Donelaičio g. 20-217 LT-44239 Kaunas, Lietuva El. paštas: ligita.sarkute@ktu.lt 28 mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms.
first_indexed 2024-12-13T18:25:26Z
format Article
id doaj.art-adbd631ff9e44d07930650992f1ca38d
institution Directory Open Access Journal
issn 1392-1517
2029-8315
language deu
last_indexed 2024-12-13T18:25:26Z
publishDate 2016-03-01
publisher Vilnius University
record_format Article
series Kalbotyra
spelling doaj.art-adbd631ff9e44d07930650992f1ca38d2022-12-21T23:35:37ZdeuVilnius UniversityKalbotyra1392-15172029-83152016-03-016610.15388/Klbt.2014.7674Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimamsJurgita Kapočiūtė-DzikienėAndrius UtkaLigita ŠarkutėStraipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatymo tyrimams; jie suskirstyti pagal autorių amžiaus grupes, lytį ar politines pažiūras, todėl tinka autorių profilio sudarymo tyrimams. Trumpas tekstas neatskleidžia jo autoriaus kalbėjimo stiliaus, yra daugiaprasmiškas kitų autorių atžvilgiu, todėl į tekstyną įtraukti ne trumpesni nei 100 žodžių tekstai. Kiekvieną autorių atitinkantis tekstų rinkinys turi būti išsamus ir reprezentatyvus, todėl įtraukti autoriai, pasisakę ne mažiau kaip 200 kartų. Visi tekstai automatiškai lemuoti, morfologiškai bei sintaksiškai anotuoti, suskaidyti simbolių n-gramomis, surinkta statistinė informacija. Straipsnyje pademonstruota, kaip sukurtas tekstynas gali būti panaudotas individualių autorių autorystės nustatymo bei autorių profilio sudarymo tyrimams, naudojant prižiūrimo mašininio mokymo metodus. Tekstyno struktūra taip pat leidžia taikyti neprižiūrimo Ligita Šarkutė Viešosios politikos ir administravimo institutas Kauno technologijos universitetas K. Donelaičio g. 20-217 LT-44239 Kaunas, Lietuva El. paštas: ligita.sarkute@ktu.lt 28 mašininio mokymo metodus, patogi taisyklinių-loginių metodų kūrimui bei įvairioms lingvistinėms analizėms.http://www.journals.vu.lt/kalbotyra/article/view/7674Seimo posėdžių stenogramosautorystės nustatymo tekstynasstilometrijaindividualių autorių autorystės nustatymasautorių profilio nustatymas
spellingShingle Jurgita Kapočiūtė-Dzikienė
Andrius Utka
Ligita Šarkutė
Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
Kalbotyra
Seimo posėdžių stenogramos
autorystės nustatymo tekstynas
stilometrija
individualių autorių autorystės nustatymas
autorių profilio nustatymas
title Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
title_full Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
title_fullStr Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
title_full_unstemmed Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
title_short Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams
title_sort seimo posedziu stenogramu tekstynas autorystes nustatymo bei autoriaus profilio sudarymo tyrimams
topic Seimo posėdžių stenogramos
autorystės nustatymo tekstynas
stilometrija
individualių autorių autorystės nustatymas
autorių profilio nustatymas
url http://www.journals.vu.lt/kalbotyra/article/view/7674
work_keys_str_mv AT jurgitakapociutedzikiene seimoposedziustenogramutekstynasautorystesnustatymobeiautoriausprofiliosudarymotyrimams
AT andriusutka seimoposedziustenogramutekstynasautorystesnustatymobeiautoriausprofiliosudarymotyrimams
AT ligitasarkute seimoposedziustenogramutekstynasautorystesnustatymobeiautoriausprofiliosudarymotyrimams