Razpoznavanje imenskih entitet v slovenskem besedilu

Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so p...

Full description

Bibliographic Details
Main Authors: Tadej Štajner, Tomaž Erjavec, Simon Krek
Format: Article
Language:English
Published: University of Ljubljana Press (Založba Univerze v Ljubljani) 2013-12-01
Series:Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
Subjects:
Online Access:https://journals.uni-lj.si/slovenscina2/article/view/6926
_version_ 1797948948467417088
author Tadej Štajner
Tomaž Erjavec
Simon Krek
author_facet Tadej Štajner
Tomaž Erjavec
Simon Krek
author_sort Tadej Štajner
collection DOAJ
description Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.
first_indexed 2024-04-10T21:52:33Z
format Article
id doaj.art-b4fc2b3209a6489fb9dbeabbfdff58ee
institution Directory Open Access Journal
issn 2335-2736
language English
last_indexed 2024-04-10T21:52:33Z
publishDate 2013-12-01
publisher University of Ljubljana Press (Založba Univerze v Ljubljani)
record_format Article
series Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
spelling doaj.art-b4fc2b3209a6489fb9dbeabbfdff58ee2023-01-18T12:33:09ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362013-12-011210.4312/slo2.0.2013.2.58-81Razpoznavanje imenskih entitet v slovenskem besediluTadej Štajner0Tomaž Erjavec1Simon Krek2Jožef Stefan Institute, Artificial Intelligence Laboratory, The Jožef Stefan International Postgraduate SchoolJožef Stefan Institute, Department of Knowledge Technologies The Jožef Stefan International Postgraduate SchoolJožef Stefan Institute, Artificial Intelligence Laboratory Faculty of Social Sciences, University of LjubljanaČlanek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.https://journals.uni-lj.si/slovenscina2/article/view/6926prepoznavanje lastnih imenizločanje entitetprocesiranje naravnega jezika
spellingShingle Tadej Štajner
Tomaž Erjavec
Simon Krek
Razpoznavanje imenskih entitet v slovenskem besedilu
Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
prepoznavanje lastnih imen
izločanje entitet
procesiranje naravnega jezika
title Razpoznavanje imenskih entitet v slovenskem besedilu
title_full Razpoznavanje imenskih entitet v slovenskem besedilu
title_fullStr Razpoznavanje imenskih entitet v slovenskem besedilu
title_full_unstemmed Razpoznavanje imenskih entitet v slovenskem besedilu
title_short Razpoznavanje imenskih entitet v slovenskem besedilu
title_sort razpoznavanje imenskih entitet v slovenskem besedilu
topic prepoznavanje lastnih imen
izločanje entitet
procesiranje naravnega jezika
url https://journals.uni-lj.si/slovenscina2/article/view/6926
work_keys_str_mv AT tadejstajner razpoznavanjeimenskihentitetvslovenskembesedilu
AT tomazerjavec razpoznavanjeimenskihentitetvslovenskembesedilu
AT simonkrek razpoznavanjeimenskihentitetvslovenskembesedilu