Razpoznavanje imenskih entitet v slovenskem besedilu
Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so p...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
University of Ljubljana Press (Založba Univerze v Ljubljani)
2013-12-01
|
Series: | Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave |
Subjects: | |
Online Access: | https://journals.uni-lj.si/slovenscina2/article/view/6926 |
_version_ | 1797948948467417088 |
---|---|
author | Tadej Štajner Tomaž Erjavec Simon Krek |
author_facet | Tadej Štajner Tomaž Erjavec Simon Krek |
author_sort | Tadej Štajner |
collection | DOAJ |
description | Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner. |
first_indexed | 2024-04-10T21:52:33Z |
format | Article |
id | doaj.art-b4fc2b3209a6489fb9dbeabbfdff58ee |
institution | Directory Open Access Journal |
issn | 2335-2736 |
language | English |
last_indexed | 2024-04-10T21:52:33Z |
publishDate | 2013-12-01 |
publisher | University of Ljubljana Press (Založba Univerze v Ljubljani) |
record_format | Article |
series | Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave |
spelling | doaj.art-b4fc2b3209a6489fb9dbeabbfdff58ee2023-01-18T12:33:09ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362013-12-011210.4312/slo2.0.2013.2.58-81Razpoznavanje imenskih entitet v slovenskem besediluTadej Štajner0Tomaž Erjavec1Simon Krek2Jožef Stefan Institute, Artificial Intelligence Laboratory, The Jožef Stefan International Postgraduate SchoolJožef Stefan Institute, Department of Knowledge Technologies The Jožef Stefan International Postgraduate SchoolJožef Stefan Institute, Artificial Intelligence Laboratory Faculty of Social Sciences, University of LjubljanaČlanek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.https://journals.uni-lj.si/slovenscina2/article/view/6926prepoznavanje lastnih imenizločanje entitetprocesiranje naravnega jezika |
spellingShingle | Tadej Štajner Tomaž Erjavec Simon Krek Razpoznavanje imenskih entitet v slovenskem besedilu Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave prepoznavanje lastnih imen izločanje entitet procesiranje naravnega jezika |
title | Razpoznavanje imenskih entitet v slovenskem besedilu |
title_full | Razpoznavanje imenskih entitet v slovenskem besedilu |
title_fullStr | Razpoznavanje imenskih entitet v slovenskem besedilu |
title_full_unstemmed | Razpoznavanje imenskih entitet v slovenskem besedilu |
title_short | Razpoznavanje imenskih entitet v slovenskem besedilu |
title_sort | razpoznavanje imenskih entitet v slovenskem besedilu |
topic | prepoznavanje lastnih imen izločanje entitet procesiranje naravnega jezika |
url | https://journals.uni-lj.si/slovenscina2/article/view/6926 |
work_keys_str_mv | AT tadejstajner razpoznavanjeimenskihentitetvslovenskembesedilu AT tomazerjavec razpoznavanjeimenskihentitetvslovenskembesedilu AT simonkrek razpoznavanjeimenskihentitetvslovenskembesedilu |