Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine

Artikkel käsitleb digitaalse ressursi loomist aastatest 1866–1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasut...

Full description

Bibliographic Details
Main Authors: Maarja-Liisa Pilvik, Kadri Muischnek, Gerth Jaanimäe, Liina Lindström, Kersti Lust, Siim Orasmaa, Tõnis Türna
Format: Article
Language:English
Published: Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics) 2019-05-01
Series:Eesti Rakenduslingvistika Ühingu Aastaraamat
Subjects:
Online Access:http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa15.08
_version_ 1818117581645545472
author Maarja-Liisa Pilvik
Kadri Muischnek
Gerth Jaanimäe
Liina Lindström
Kersti Lust
Siim Orasmaa
Tõnis Türna
author_facet Maarja-Liisa Pilvik
Kadri Muischnek
Gerth Jaanimäe
Liina Lindström
Kersti Lust
Siim Orasmaa
Tõnis Türna
author_sort Maarja-Liisa Pilvik
collection DOAJ
description Artikkel käsitleb digitaalse ressursi loomist aastatest 1866–1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed. *** "Creating a digital resource from 19th century communal court minute books" This article describes an interdisciplinary attempt to create a digital resource from Estonian communal court minute books dating from 1866−1890, with the focus lying on using contemporary natural language processing tools for analyzing archaic language. The database contains nearly 420 000 tokens in XML-tagged files. The texts are linguistically diverse: the parallel use of old and new spelling systems, dialects, and the background of the parish clerk bring about a lot of language variation. There are also differences in the orthographic choices made during the manual insertion of the texts. For the purpose of linguistic analysis and tagging, automatic morphological analysis and named entity recognition was tested using EstNLTK libraries. A closer examination of the output suggested that it is necessary to use both text normalization and tool adaption for improving the quality of automatic analyses. This would result in tools, which would perform better at analyzing similar texts and which could, therefore, be applied in the automatic analysis crowd-sourced material. Making the communal court minute books accessible and searchable by supplying linguistic and topical information creates a rich digital resource which is subject of interest for many disciplines.
first_indexed 2024-12-11T04:40:41Z
format Article
id doaj.art-098161f568cc42fdb8244f98b53b787e
institution Directory Open Access Journal
issn 1736-2563
2228-0677
language English
last_indexed 2024-12-11T04:40:41Z
publishDate 2019-05-01
publisher Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
record_format Article
series Eesti Rakenduslingvistika Ühingu Aastaraamat
spelling doaj.art-098161f568cc42fdb8244f98b53b787e2022-12-22T01:20:37ZengEesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)Eesti Rakenduslingvistika Ühingu Aastaraamat1736-25632228-06772019-05-011513915810.5128/ERYa15.08Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomineMaarja-Liisa PilvikKadri MuischnekGerth JaanimäeLiina LindströmKersti LustSiim OrasmaaTõnis TürnaArtikkel käsitleb digitaalse ressursi loomist aastatest 1866–1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed. *** "Creating a digital resource from 19th century communal court minute books" This article describes an interdisciplinary attempt to create a digital resource from Estonian communal court minute books dating from 1866−1890, with the focus lying on using contemporary natural language processing tools for analyzing archaic language. The database contains nearly 420 000 tokens in XML-tagged files. The texts are linguistically diverse: the parallel use of old and new spelling systems, dialects, and the background of the parish clerk bring about a lot of language variation. There are also differences in the orthographic choices made during the manual insertion of the texts. For the purpose of linguistic analysis and tagging, automatic morphological analysis and named entity recognition was tested using EstNLTK libraries. A closer examination of the output suggested that it is necessary to use both text normalization and tool adaption for improving the quality of automatic analyses. This would result in tools, which would perform better at analyzing similar texts and which could, therefore, be applied in the automatic analysis crowd-sourced material. Making the communal court minute books accessible and searchable by supplying linguistic and topical information creates a rich digital resource which is subject of interest for many disciplines.http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa15.08natural language processingautomatic morphologydigital humanitiescorpus linguisticsdatabaseslanguage historyEstonian
spellingShingle Maarja-Liisa Pilvik
Kadri Muischnek
Gerth Jaanimäe
Liina Lindström
Kersti Lust
Siim Orasmaa
Tõnis Türna
Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
Eesti Rakenduslingvistika Ühingu Aastaraamat
natural language processing
automatic morphology
digital humanities
corpus linguistics
databases
language history
Estonian
title Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
title_full Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
title_fullStr Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
title_full_unstemmed Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
title_short Möistus sai kuulotedu: 19. sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
title_sort moistus sai kuulotedu 19 sajandi vallakohtuprotokollide tekstidest digitaalse ressursi loomine
topic natural language processing
automatic morphology
digital humanities
corpus linguistics
databases
language history
Estonian
url http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa15.08
work_keys_str_mv AT maarjaliisapilvik moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT kadrimuischnek moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT gerthjaanimae moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT liinalindstrom moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT kerstilust moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT siimorasmaa moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine
AT tonisturna moistussaikuulotedu19sajandivallakohtuprotokollidetekstidestdigitaalseressursiloomine