Inside Baseball: Coverage, quality, and culture in the Global WordNet
Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certai...
Main Author: | |
---|---|
Format: | Article |
Language: | English |
Published: |
Institute of Slavic Studies, Polish Academy of Sciences
2018-12-01
|
Series: | Cognitive Studies | Études cognitives |
Subjects: | |
Online Access: | https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712 |
_version_ | 1797694287708684288 |
---|---|
author | Martin Benjamin |
author_facet | Martin Benjamin |
author_sort | Martin Benjamin |
collection | DOAJ |
description |
Inside Baseball: Coverage, quality, and culture in the Global WordNet
The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them.
Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNet
Global WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć.
|
first_indexed | 2024-03-12T02:55:46Z |
format | Article |
id | doaj.art-0a0a4d90b03d4af6ace51f105e88598d |
institution | Directory Open Access Journal |
issn | 2392-2397 |
language | English |
last_indexed | 2024-03-12T02:55:46Z |
publishDate | 2018-12-01 |
publisher | Institute of Slavic Studies, Polish Academy of Sciences |
record_format | Article |
series | Cognitive Studies | Études cognitives |
spelling | doaj.art-0a0a4d90b03d4af6ace51f105e88598d2023-09-03T15:16:48ZengInstitute of Slavic Studies, Polish Academy of SciencesCognitive Studies | Études cognitives2392-23972018-12-011810.11649/cs.1712Inside Baseball: Coverage, quality, and culture in the Global WordNetMartin Benjamin0Kamusi Project International, Lausanne Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them. Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNet Global WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć. https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712wordnetlexicographyvocabularynamed entitiesmultilingual |
spellingShingle | Martin Benjamin Inside Baseball: Coverage, quality, and culture in the Global WordNet Cognitive Studies | Études cognitives wordnet lexicography vocabulary named entities multilingual |
title | Inside Baseball: Coverage, quality, and culture in the Global WordNet |
title_full | Inside Baseball: Coverage, quality, and culture in the Global WordNet |
title_fullStr | Inside Baseball: Coverage, quality, and culture in the Global WordNet |
title_full_unstemmed | Inside Baseball: Coverage, quality, and culture in the Global WordNet |
title_short | Inside Baseball: Coverage, quality, and culture in the Global WordNet |
title_sort | inside baseball coverage quality and culture in the global wordnet |
topic | wordnet lexicography vocabulary named entities multilingual |
url | https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712 |
work_keys_str_mv | AT martinbenjamin insidebaseballcoveragequalityandcultureintheglobalwordnet |