Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this articl...

Full description

Bibliographic Details
Main Authors: Jan Michael Goldberg, Katrin Moeller
Format: Article
Language:deu
Published: Forschungsverbund Marbach Weimar Wolfenbüttel 2022-03-01
Series:Zeitschrift für digitale Geisteswissenschaften
Subjects:
Online Access:https://www.zfdg.de/node/318
_version_ 1797970834513461248
author Jan Michael Goldberg
Katrin Moeller
author_facet Jan Michael Goldberg
Katrin Moeller
author_sort Jan Michael Goldberg
collection DOAJ
description Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this article, the assignment of spelling variants to already defined generic names of occupations is referred to as lemmatization or normalisation, while the assignment of the normalised spelling and to a classification system is referred to as classification. In order to reduce manual effort, an algorithm for the automated lemmatization of historical, German-language occupational data is developed. The best result is achieved with a supervised machine learning approach. Overall, about 72 percent of the occupational data can be lemmatized, and about 98 percent of these assignments are correct.
first_indexed 2024-04-11T03:23:15Z
format Article
id doaj.art-10b991087f3a48459489e181fd8d3f70
institution Directory Open Access Journal
issn 2510-1358
language deu
last_indexed 2024-04-11T03:23:15Z
publishDate 2022-03-01
publisher Forschungsverbund Marbach Weimar Wolfenbüttel
record_format Article
series Zeitschrift für digitale Geisteswissenschaften
spelling doaj.art-10b991087f3a48459489e181fd8d3f702023-01-02T08:10:58ZdeuForschungsverbund Marbach Weimar WolfenbüttelZeitschrift für digitale Geisteswissenschaften2510-13582022-03-010d10.17175/2022_0021760213403Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen DatenbeständenJan Michael Goldberghttps://orcid.org/0000-0002-4817-4283Katrin Moellerhttps://orcid.org/0000-0003-4090-5667Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this article, the assignment of spelling variants to already defined generic names of occupations is referred to as lemmatization or normalisation, while the assignment of the normalised spelling and to a classification system is referred to as classification. In order to reduce manual effort, an algorithm for the automated lemmatization of historical, German-language occupational data is developed. The best result is achieved with a supervised machine learning approach. Overall, about 72 percent of the occupational data can be lemmatized, and about 98 percent of these assignments are correct.https://www.zfdg.de/node/318informations- und dokumentationswissenschaftberufsforschungmaschinelles lernenautomatische klassifikationstandardisierung
spellingShingle Jan Michael Goldberg
Katrin Moeller
Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
Zeitschrift für digitale Geisteswissenschaften
informations- und dokumentationswissenschaft
berufsforschung
maschinelles lernen
automatische klassifikation
standardisierung
title Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_full Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_fullStr Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_full_unstemmed Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_short Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_sort automatisierte indentifikation und lemmatisierung historischer berufsbezeichnungen in deutschsprachigen datenbestanden
topic informations- und dokumentationswissenschaft
berufsforschung
maschinelles lernen
automatische klassifikation
standardisierung
url https://www.zfdg.de/node/318
work_keys_str_mv AT janmichaelgoldberg automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden
AT katrinmoeller automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden