Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten

Dieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in T...

Full description

Bibliographic Details
Main Authors: Cecilia Buz, Nikolai Promies, Sarah Kohler, Markus Lehmkuhl
Format: Article
Language:deu
Published: Nomos Verlagsgesellschaft mbH & Co. KG 2022-03-01
Series:Studies in Communication, Media
Online Access:https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590
_version_ 1797869282148745216
author Cecilia Buz
Nikolai Promies
Sarah Kohler
Markus Lehmkuhl
author_facet Cecilia Buz
Nikolai Promies
Sarah Kohler
Markus Lehmkuhl
author_sort Cecilia Buz
collection DOAJ
description Dieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in Texten spezialisiert ist. Für diesen Zweck werden oft frei verfügbare NER-Softwarepakete verwendet, die mit spezifischen Textdaten trainiert und optimiert wurden. Dadurch ist jedoch ungewiss, ob diese NER-Pakete bei der Analyse von unbekannten journalistischen Nachrichtentexten richtige und präzise Ergebnisse liefern können. Um dies zu evaluieren, wurden drei in der Programmiersprache Python implementierte NER-Codepackages gegenübergestellt und die Ergebnisse der automatisierten Analyse mit den Ergebnissen einer manuellen Inhaltsanalyse derselben journalistischen Textdaten verglichen. Ziel ist damit, die Eignung und Güte verschiedener NER-Softwarepakete für die Identifikation von Akteuren zu prüfen, denn obwohl in der Kommunikationswissenschaft vermehrt automatisierte Verfahren eingesetzt werden, mangelt es an Studien, die die Validität der erhaltenen Ergebnisse bewerten. Die Ergebnisse zeigen eine hohe Übereinstimmung zwischen den händisch erhobenen und den automatisiert identifizierten Personennamen, lediglich bei der automatisierten Identifikation von Organisationsnamen ist die Übereinstimmungsquote mit den manuellen Codierungen geringer.
first_indexed 2024-04-10T00:10:09Z
format Article
id doaj.art-984f70547edf4861b2941456df1399f9
institution Directory Open Access Journal
issn 2192-4007
language deu
last_indexed 2024-04-10T00:10:09Z
publishDate 2022-03-01
publisher Nomos Verlagsgesellschaft mbH & Co. KG
record_format Article
series Studies in Communication, Media
spelling doaj.art-984f70547edf4861b2941456df1399f92023-03-16T11:41:32ZdeuNomos Verlagsgesellschaft mbH & Co. KGStudies in Communication, Media2192-40072022-03-0110459062710.5771/2192-4007-2021-4-5901057712192400720214590Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen TextenCecilia BuzNikolai PromiesSarah KohlerMarkus LehmkuhlDieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in Texten spezialisiert ist. Für diesen Zweck werden oft frei verfügbare NER-Softwarepakete verwendet, die mit spezifischen Textdaten trainiert und optimiert wurden. Dadurch ist jedoch ungewiss, ob diese NER-Pakete bei der Analyse von unbekannten journalistischen Nachrichtentexten richtige und präzise Ergebnisse liefern können. Um dies zu evaluieren, wurden drei in der Programmiersprache Python implementierte NER-Codepackages gegenübergestellt und die Ergebnisse der automatisierten Analyse mit den Ergebnissen einer manuellen Inhaltsanalyse derselben journalistischen Textdaten verglichen. Ziel ist damit, die Eignung und Güte verschiedener NER-Softwarepakete für die Identifikation von Akteuren zu prüfen, denn obwohl in der Kommunikationswissenschaft vermehrt automatisierte Verfahren eingesetzt werden, mangelt es an Studien, die die Validität der erhaltenen Ergebnisse bewerten. Die Ergebnisse zeigen eine hohe Übereinstimmung zwischen den händisch erhobenen und den automatisiert identifizierten Personennamen, lediglich bei der automatisierten Identifikation von Organisationsnamen ist die Übereinstimmungsquote mit den manuellen Codierungen geringer.https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590
spellingShingle Cecilia Buz
Nikolai Promies
Sarah Kohler
Markus Lehmkuhl
Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
Studies in Communication, Media
title Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
title_full Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
title_fullStr Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
title_full_unstemmed Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
title_short Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
title_sort validierung von ner verfahren zur automatisierten identifikation von akteuren in deutschsprachigen journalistischen texten
url https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590
work_keys_str_mv AT ceciliabuz validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten
AT nikolaipromies validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten
AT sarahkohler validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten
AT markuslehmkuhl validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten