Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this articl...
Main Authors: | , |
---|---|
Format: | Article |
Language: | deu |
Published: |
Forschungsverbund Marbach Weimar Wolfenbüttel
2022-03-01
|
Series: | Zeitschrift für digitale Geisteswissenschaften |
Subjects: | |
Online Access: | https://www.zfdg.de/node/318 |
_version_ | 1797970834513461248 |
---|---|
author | Jan Michael Goldberg Katrin Moeller |
author_facet | Jan Michael Goldberg Katrin Moeller |
author_sort | Jan Michael Goldberg |
collection | DOAJ |
description | Occupational information occurs in many historical sources. For a large
number of research areas, not only standardization, but above all
classification of these is a central prerequisite for analysis. In this
article, the assignment of spelling variants to already defined generic
names of occupations is referred to as lemmatization or normalisation,
while the assignment of the normalised spelling and to a classification
system is referred to as classification. In order to reduce manual
effort, an algorithm for the automated lemmatization of historical,
German-language occupational data is developed. The best result is
achieved with a supervised machine learning approach. Overall, about 72
percent of the occupational data can be lemmatized, and about 98 percent
of these assignments are correct. |
first_indexed | 2024-04-11T03:23:15Z |
format | Article |
id | doaj.art-10b991087f3a48459489e181fd8d3f70 |
institution | Directory Open Access Journal |
issn | 2510-1358 |
language | deu |
last_indexed | 2024-04-11T03:23:15Z |
publishDate | 2022-03-01 |
publisher | Forschungsverbund Marbach Weimar Wolfenbüttel |
record_format | Article |
series | Zeitschrift für digitale Geisteswissenschaften |
spelling | doaj.art-10b991087f3a48459489e181fd8d3f702023-01-02T08:10:58ZdeuForschungsverbund Marbach Weimar WolfenbüttelZeitschrift für digitale Geisteswissenschaften2510-13582022-03-010d10.17175/2022_0021760213403Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen DatenbeständenJan Michael Goldberghttps://orcid.org/0000-0002-4817-4283Katrin Moellerhttps://orcid.org/0000-0003-4090-5667Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this article, the assignment of spelling variants to already defined generic names of occupations is referred to as lemmatization or normalisation, while the assignment of the normalised spelling and to a classification system is referred to as classification. In order to reduce manual effort, an algorithm for the automated lemmatization of historical, German-language occupational data is developed. The best result is achieved with a supervised machine learning approach. Overall, about 72 percent of the occupational data can be lemmatized, and about 98 percent of these assignments are correct.https://www.zfdg.de/node/318informations- und dokumentationswissenschaftberufsforschungmaschinelles lernenautomatische klassifikationstandardisierung |
spellingShingle | Jan Michael Goldberg Katrin Moeller Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen Zeitschrift für digitale Geisteswissenschaften informations- und dokumentationswissenschaft berufsforschung maschinelles lernen automatische klassifikation standardisierung |
title | Automatisierte Indentifikation und Lemmatisierung
historischer Berufsbezeichnungen in deutschsprachigen
Datenbeständen |
title_full | Automatisierte Indentifikation und Lemmatisierung
historischer Berufsbezeichnungen in deutschsprachigen
Datenbeständen |
title_fullStr | Automatisierte Indentifikation und Lemmatisierung
historischer Berufsbezeichnungen in deutschsprachigen
Datenbeständen |
title_full_unstemmed | Automatisierte Indentifikation und Lemmatisierung
historischer Berufsbezeichnungen in deutschsprachigen
Datenbeständen |
title_short | Automatisierte Indentifikation und Lemmatisierung
historischer Berufsbezeichnungen in deutschsprachigen
Datenbeständen |
title_sort | automatisierte indentifikation und lemmatisierung historischer berufsbezeichnungen in deutschsprachigen datenbestanden |
topic | informations- und dokumentationswissenschaft berufsforschung maschinelles lernen automatische klassifikation standardisierung |
url | https://www.zfdg.de/node/318 |
work_keys_str_mv | AT janmichaelgoldberg automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden AT katrinmoeller automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden |