Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten
Dieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in T...
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | deu |
Published: |
Nomos Verlagsgesellschaft mbH & Co. KG
2022-03-01
|
Series: | Studies in Communication, Media |
Online Access: | https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590 |
_version_ | 1797869282148745216 |
---|---|
author | Cecilia Buz Nikolai Promies Sarah Kohler Markus Lehmkuhl |
author_facet | Cecilia Buz Nikolai Promies Sarah Kohler Markus Lehmkuhl |
author_sort | Cecilia Buz |
collection | DOAJ |
description | Dieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in Texten spezialisiert ist. Für diesen Zweck werden oft frei verfügbare NER-Softwarepakete verwendet, die mit spezifischen Textdaten trainiert und optimiert wurden. Dadurch ist jedoch ungewiss, ob diese NER-Pakete bei der Analyse von unbekannten journalistischen Nachrichtentexten richtige und präzise Ergebnisse liefern können. Um dies zu evaluieren, wurden drei in der Programmiersprache Python implementierte NER-Codepackages gegenübergestellt und die Ergebnisse der automatisierten Analyse mit den Ergebnissen einer manuellen Inhaltsanalyse derselben journalistischen Textdaten verglichen. Ziel ist damit, die Eignung und Güte verschiedener NER-Softwarepakete für die Identifikation von Akteuren zu prüfen, denn obwohl in der Kommunikationswissenschaft vermehrt automatisierte Verfahren eingesetzt werden, mangelt es an Studien, die die Validität der erhaltenen Ergebnisse bewerten. Die Ergebnisse zeigen eine hohe Übereinstimmung zwischen den händisch erhobenen und den automatisiert identifizierten Personennamen, lediglich bei der automatisierten Identifikation von Organisationsnamen ist die Übereinstimmungsquote mit den manuellen Codierungen geringer. |
first_indexed | 2024-04-10T00:10:09Z |
format | Article |
id | doaj.art-984f70547edf4861b2941456df1399f9 |
institution | Directory Open Access Journal |
issn | 2192-4007 |
language | deu |
last_indexed | 2024-04-10T00:10:09Z |
publishDate | 2022-03-01 |
publisher | Nomos Verlagsgesellschaft mbH & Co. KG |
record_format | Article |
series | Studies in Communication, Media |
spelling | doaj.art-984f70547edf4861b2941456df1399f92023-03-16T11:41:32ZdeuNomos Verlagsgesellschaft mbH & Co. KGStudies in Communication, Media2192-40072022-03-0110459062710.5771/2192-4007-2021-4-5901057712192400720214590Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen TextenCecilia BuzNikolai PromiesSarah KohlerMarkus LehmkuhlDieser Beitrag befasst sich mit der Validierung von Named Entity Recognition (NER), einem Verfahren, das als Teilschritt der Inhaltsanalyse von umfangreichen Textdaten eingesetzt werden kann und auf die automatisierte Identifikation und Extraktion von Eigennamen (Personen, Organisationen, Orte) in Texten spezialisiert ist. Für diesen Zweck werden oft frei verfügbare NER-Softwarepakete verwendet, die mit spezifischen Textdaten trainiert und optimiert wurden. Dadurch ist jedoch ungewiss, ob diese NER-Pakete bei der Analyse von unbekannten journalistischen Nachrichtentexten richtige und präzise Ergebnisse liefern können. Um dies zu evaluieren, wurden drei in der Programmiersprache Python implementierte NER-Codepackages gegenübergestellt und die Ergebnisse der automatisierten Analyse mit den Ergebnissen einer manuellen Inhaltsanalyse derselben journalistischen Textdaten verglichen. Ziel ist damit, die Eignung und Güte verschiedener NER-Softwarepakete für die Identifikation von Akteuren zu prüfen, denn obwohl in der Kommunikationswissenschaft vermehrt automatisierte Verfahren eingesetzt werden, mangelt es an Studien, die die Validität der erhaltenen Ergebnisse bewerten. Die Ergebnisse zeigen eine hohe Übereinstimmung zwischen den händisch erhobenen und den automatisiert identifizierten Personennamen, lediglich bei der automatisierten Identifikation von Organisationsnamen ist die Übereinstimmungsquote mit den manuellen Codierungen geringer.https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590 |
spellingShingle | Cecilia Buz Nikolai Promies Sarah Kohler Markus Lehmkuhl Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten Studies in Communication, Media |
title | Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten |
title_full | Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten |
title_fullStr | Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten |
title_full_unstemmed | Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten |
title_short | Validierung von NER-Verfahren zur automatisierten Identifikation von Akteuren in deutschsprachigen journalistischen Texten |
title_sort | validierung von ner verfahren zur automatisierten identifikation von akteuren in deutschsprachigen journalistischen texten |
url | https://www.nomos-elibrary.de/10.5771/2192-4007-2021-4-590 |
work_keys_str_mv | AT ceciliabuz validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten AT nikolaipromies validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten AT sarahkohler validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten AT markuslehmkuhl validierungvonnerverfahrenzurautomatisiertenidentifikationvonakteurenindeutschsprachigenjournalistischentexten |