Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this articl...

Full description

Bibliographic Details
Main Authors:	Jan Michael Goldberg, Katrin Moeller
Format:	Article
Language:	deu
Published:	Forschungsverbund Marbach Weimar Wolfenbüttel 2022-03-01
Series:	Zeitschrift für digitale Geisteswissenschaften
Subjects:	informations- und dokumentationswissenschaft berufsforschung maschinelles lernen automatische klassifikation standardisierung
Online Access:	https://www.zfdg.de/node/318

_version_	1797970834513461248
author	Jan Michael Goldberg Katrin Moeller
author_facet	Jan Michael Goldberg Katrin Moeller
author_sort	Jan Michael Goldberg
collection	DOAJ
description	Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this article, the assignment of spelling variants to already defined generic names of occupations is referred to as lemmatization or normalisation, while the assignment of the normalised spelling and to a classification system is referred to as classification. In order to reduce manual effort, an algorithm for the automated lemmatization of historical, German-language occupational data is developed. The best result is achieved with a supervised machine learning approach. Overall, about 72 percent of the occupational data can be lemmatized, and about 98 percent of these assignments are correct.
first_indexed	2024-04-11T03:23:15Z
format	Article
id	doaj.art-10b991087f3a48459489e181fd8d3f70
institution	Directory Open Access Journal
issn	2510-1358
language	deu
last_indexed	2024-04-11T03:23:15Z
publishDate	2022-03-01
publisher	Forschungsverbund Marbach Weimar Wolfenbüttel
record_format	Article
series	Zeitschrift für digitale Geisteswissenschaften
spelling	doaj.art-10b991087f3a48459489e181fd8d3f702023-01-02T08:10:58ZdeuForschungsverbund Marbach Weimar WolfenbüttelZeitschrift für digitale Geisteswissenschaften2510-13582022-03-010d10.17175/2022_0021760213403Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen DatenbeständenJan Michael Goldberghttps://orcid.org/0000-0002-4817-4283Katrin Moellerhttps://orcid.org/0000-0003-4090-5667Occupational information occurs in many historical sources. For a large number of research areas, not only standardization, but above all classification of these is a central prerequisite for analysis. In this article, the assignment of spelling variants to already defined generic names of occupations is referred to as lemmatization or normalisation, while the assignment of the normalised spelling and to a classification system is referred to as classification. In order to reduce manual effort, an algorithm for the automated lemmatization of historical, German-language occupational data is developed. The best result is achieved with a supervised machine learning approach. Overall, about 72 percent of the occupational data can be lemmatized, and about 98 percent of these assignments are correct.https://www.zfdg.de/node/318informations- und dokumentationswissenschaftberufsforschungmaschinelles lernenautomatische klassifikationstandardisierung
spellingShingle	Jan Michael Goldberg Katrin Moeller Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen Zeitschrift für digitale Geisteswissenschaften informations- und dokumentationswissenschaft berufsforschung maschinelles lernen automatische klassifikation standardisierung
title	Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_full	Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_fullStr	Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_full_unstemmed	Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_short	Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
title_sort	automatisierte indentifikation und lemmatisierung historischer berufsbezeichnungen in deutschsprachigen datenbestanden
topic	informations- und dokumentationswissenschaft berufsforschung maschinelles lernen automatische klassifikation standardisierung
url	https://www.zfdg.de/node/318
work_keys_str_mv	AT janmichaelgoldberg automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden AT katrinmoeller automatisierteindentifikationundlemmatisierunghistorischerberufsbezeichnungenindeutschsprachigendatenbestanden

Automatisierte Indentifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Similar Items