POS-tagging Tartu Corpus of Estonian Learner English with CLAWS7

The aim of the study is to examine whether the CLAWS7 tagger is a suitable tool for tagging the Tartu Corpus of Estonian Learner English (TCELE). Extracts were tagged manually and automatically, and the results were compared to calculate the error rate and reveal the possible causes for tagger error...

Full description

Bibliographic Details
Main Authors: Liina Tammekänd, Reeli Torn-Leesik
Format: Article
Language:English
Published: Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics) 2022-04-01
Series:Eesti Rakenduslingvistika Ühingu Aastaraamat
Subjects:
Online Access:http://arhiiv.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/ERYa18.15
Description
Summary:The aim of the study is to examine whether the CLAWS7 tagger is a suitable tool for tagging the Tartu Corpus of Estonian Learner English (TCELE). Extracts were tagged manually and automatically, and the results were compared to calculate the error rate and reveal the possible causes for tagger errors. The error rate was 4.01%. The tagger expectedly experienced some of the disambiguation problems outlined in the CLAWS7 post-editing guide, yet certain tagger errors were also triggered by learner errors. *** Sõnaliikide märgendamine Tartu inglise õppijakeele korpuses CLAWS7 märgendajaga Uurimuse eesmärk oli tuvastada, kas CLAWS7 automaatset sõnaliigi märgendajat saab kasutada Tartu inglise õppijakeele korpuse (TCELE) märgendamiseks. TCELE-st juhuslikkuse alusel valitud käsitsi ja automaatselt märgendatud teksti lõike võrreldi omavahel, arvutati automaatse märgendaja veamäär ning analüüsiti märgendamisel tekkinud vigade võimalikke põhjuseid. Automaatse märgendaja veamääraks oli 4,01%. Märgendajal tekkisid ühestusraskused määratlejate ja adverbide, adverbide ja ainsuses olevate noomenite ning adjektiivide ja adverbide märgendamisel. Samuti oli märgendajal raskusi sobiva täpsema märgendi määramisel noomeni ja verbi kategooriates. Nimetatud raskusi mainiti ka CLAWS7 järeltoimetamise juhendis. Lisaks tekkisid märgendajal õppijavigadega seotud raskused. CLAWS7 oluline nõrkus on veel märgendite puudumine relatiivpronoomeni ning samuti sõnade this ja that pronoomenkasutuse jaoks. Vaatamata nimetatud puudustele saab CLAWS7 märgendajat kasutada eestlaste inglise õppijakeele märgendamiseks.
ISSN:1736-2563
2228-0677