Inside Baseball: Coverage, quality, and culture in the Global WordNet

Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certai...

Full description

Bibliographic Details
Main Author: Martin Benjamin
Format: Article
Language:English
Published: Institute of Slavic Studies, Polish Academy of Sciences 2018-12-01
Series:Cognitive Studies | Études cognitives
Subjects:
Online Access:https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712
_version_ 1797694287708684288
author Martin Benjamin
author_facet Martin Benjamin
author_sort Martin Benjamin
collection DOAJ
description Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them.   Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNet Global WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć.
first_indexed 2024-03-12T02:55:46Z
format Article
id doaj.art-0a0a4d90b03d4af6ace51f105e88598d
institution Directory Open Access Journal
issn 2392-2397
language English
last_indexed 2024-03-12T02:55:46Z
publishDate 2018-12-01
publisher Institute of Slavic Studies, Polish Academy of Sciences
record_format Article
series Cognitive Studies | Études cognitives
spelling doaj.art-0a0a4d90b03d4af6ace51f105e88598d2023-09-03T15:16:48ZengInstitute of Slavic Studies, Polish Academy of SciencesCognitive Studies | Études cognitives2392-23972018-12-011810.11649/cs.1712Inside Baseball: Coverage, quality, and culture in the Global WordNetMartin Benjamin0Kamusi Project International, Lausanne Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them.   Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNet Global WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć. https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712wordnetlexicographyvocabularynamed entitiesmultilingual
spellingShingle Martin Benjamin
Inside Baseball: Coverage, quality, and culture in the Global WordNet
Cognitive Studies | Études cognitives
wordnet
lexicography
vocabulary
named entities
multilingual
title Inside Baseball: Coverage, quality, and culture in the Global WordNet
title_full Inside Baseball: Coverage, quality, and culture in the Global WordNet
title_fullStr Inside Baseball: Coverage, quality, and culture in the Global WordNet
title_full_unstemmed Inside Baseball: Coverage, quality, and culture in the Global WordNet
title_short Inside Baseball: Coverage, quality, and culture in the Global WordNet
title_sort inside baseball coverage quality and culture in the global wordnet
topic wordnet
lexicography
vocabulary
named entities
multilingual
url https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712
work_keys_str_mv AT martinbenjamin insidebaseballcoveragequalityandcultureintheglobalwordnet