Universal Dependencies za slovenščino

Universal Dependencies (UD) je mednarodno usklajena označevalna shema za medjezikovno primerljivo oblikoslovno in skladenjsko označevanje besedil po načelih odvisnostne slovnice, ki je bila ob več kot 130 drugih svetovnih jezikih uspešno uporabljena tudi za označevanje besedil v slovenščini. V pris...

Full description

Bibliographic Details
Main Authors: Kaja Dobrovoljc, Luka Terčon, Nikola Ljubešić
Format: Article
Language:English
Published: University of Ljubljana Press (Založba Univerze v Ljubljani) 2023-09-01
Series:Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
Subjects:
Online Access:https://journals-test.uni-lj.si/slovenscina2/article/view/12031
_version_ 1797234785489256448
author Kaja Dobrovoljc
Luka Terčon
Nikola Ljubešić
author_facet Kaja Dobrovoljc
Luka Terčon
Nikola Ljubešić
author_sort Kaja Dobrovoljc
collection DOAJ
description Universal Dependencies (UD) je mednarodno usklajena označevalna shema za medjezikovno primerljivo oblikoslovno in skladenjsko označevanje besedil po načelih odvisnostne slovnice, ki je bila ob več kot 130 drugih svetovnih jezikih uspešno uporabljena tudi za označevanje besedil v slovenščini. V prispevku predstavimo rezultate nedavnih aktivnosti v povezavi s shemo UD znotraj projekta Razvoj slovenščine v digitalnem okolju, v okviru katerega smo obstoječo infrastrukturo nadgradili s prenovo in podrobno dokumentacijo označevalnih smernic UD za slovenščino, razširitvijo drevesnice SSJ-UD za pisno slovenščino z novimi povedmi iz korpusov ssj500k in ELEXIS-WSD, izdelavo testne množice iz besedil korpusa SentiCoref za spletni portal SloBENCH ter polavtomatsko pretvorbo oblikoslovnih oznak referenčnih učnih korpusov SUK in Janes-Tag. Na razširjeni drevesnici SSJ-UD je bil naučen tudi novi napovedni model za skladenjsko razčlenjevanje v orodju CLASSLA-Stanza, ki ga v prispevku v podporo nadaljnjim jezikoslovnim aplikacijam podrobneje ovrednotimo z vidika splošne natančnosti razčlenjevanja in najpogostejših tipov napak.
first_indexed 2024-04-24T16:37:35Z
format Article
id doaj.art-ac8f314b43164a72ae525e02860ce03a
institution Directory Open Access Journal
issn 2335-2736
language English
last_indexed 2024-04-24T16:37:35Z
publishDate 2023-09-01
publisher University of Ljubljana Press (Založba Univerze v Ljubljani)
record_format Article
series Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
spelling doaj.art-ac8f314b43164a72ae525e02860ce03a2024-03-29T13:42:56ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362023-09-0111110.4312/slo2.0.2023.1.218-246Universal Dependencies za slovenščinoKaja Dobrovoljc0Luka Terčon1Nikola Ljubešić2Univerza v Ljubljani, Filozofska fakulteta; Institut Jožef Stefan, LjubljanaUniverza v Ljubljani, Fakulteta za računalništvo in informatikoInstitut Jožef Stefan, Ljubljana; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Universal Dependencies (UD) je mednarodno usklajena označevalna shema za medjezikovno primerljivo oblikoslovno in skladenjsko označevanje besedil po načelih odvisnostne slovnice, ki je bila ob več kot 130 drugih svetovnih jezikih uspešno uporabljena tudi za označevanje besedil v slovenščini. V prispevku predstavimo rezultate nedavnih aktivnosti v povezavi s shemo UD znotraj projekta Razvoj slovenščine v digitalnem okolju, v okviru katerega smo obstoječo infrastrukturo nadgradili s prenovo in podrobno dokumentacijo označevalnih smernic UD za slovenščino, razširitvijo drevesnice SSJ-UD za pisno slovenščino z novimi povedmi iz korpusov ssj500k in ELEXIS-WSD, izdelavo testne množice iz besedil korpusa SentiCoref za spletni portal SloBENCH ter polavtomatsko pretvorbo oblikoslovnih oznak referenčnih učnih korpusov SUK in Janes-Tag. Na razširjeni drevesnici SSJ-UD je bil naučen tudi novi napovedni model za skladenjsko razčlenjevanje v orodju CLASSLA-Stanza, ki ga v prispevku v podporo nadaljnjim jezikoslovnim aplikacijam podrobneje ovrednotimo z vidika splošne natančnosti razčlenjevanja in najpogostejših tipov napak. https://journals-test.uni-lj.si/slovenscina2/article/view/12031slovnično označeni korpusiodvisnostna slovnicadrevesnicaskladenjsko razčlenjevanjeobdelava naravnega jezika
spellingShingle Kaja Dobrovoljc
Luka Terčon
Nikola Ljubešić
Universal Dependencies za slovenščino
Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
slovnično označeni korpusi
odvisnostna slovnica
drevesnica
skladenjsko razčlenjevanje
obdelava naravnega jezika
title Universal Dependencies za slovenščino
title_full Universal Dependencies za slovenščino
title_fullStr Universal Dependencies za slovenščino
title_full_unstemmed Universal Dependencies za slovenščino
title_short Universal Dependencies za slovenščino
title_sort universal dependencies za slovenscino
topic slovnično označeni korpusi
odvisnostna slovnica
drevesnica
skladenjsko razčlenjevanje
obdelava naravnega jezika
url https://journals-test.uni-lj.si/slovenscina2/article/view/12031
work_keys_str_mv AT kajadobrovoljc universaldependencieszaslovenscino
AT lukatercon universaldependencieszaslovenscino
AT nikolaljubesic universaldependencieszaslovenscino