Inside Baseball: Coverage, quality, and culture in the Global WordNet

Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certai...

Full description

Bibliographic Details
Main Author: Martin Benjamin
Format: Article
Language:English
Published: Institute of Slavic Studies, Polish Academy of Sciences 2018-12-01
Series:Cognitive Studies | Études cognitives
Subjects:
Online Access:https://journals.ispan.edu.pl/index.php/cs-ec/article/view/1712
Description
Summary:Inside Baseball: Coverage, quality, and culture in the Global WordNet The Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them.   Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNet Global WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć.
ISSN:2392-2397