Projekt OCR-BW

Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Währen...

Full description

Bibliographic Details
Main Authors: Dorothee Huff, Kristina Stöbener
Format: Article
Language:deu
Published: Verein Deutscher Bibliothekarinnen und Bibliothekare (VDB) 2022-11-01
Series:o-bib. Das offene Bibliotheksjournal
Subjects:
Online Access:https://www.o-bib.de/bib/article/view/5885
_version_ 1798016288738508800
author Dorothee Huff
Kristina Stöbener
author_facet Dorothee Huff
Kristina Stöbener
author_sort Dorothee Huff
collection DOAJ
description Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren. Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und seit 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Korpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können.
first_indexed 2024-04-11T15:48:34Z
format Article
id doaj.art-d99395dfbe7e4ecd9ebee622f63336db
institution Directory Open Access Journal
issn 2363-9814
language deu
last_indexed 2024-04-11T15:48:34Z
publishDate 2022-11-01
publisher Verein Deutscher Bibliothekarinnen und Bibliothekare (VDB)
record_format Article
series o-bib. Das offene Bibliotheksjournal
spelling doaj.art-d99395dfbe7e4ecd9ebee622f63336db2022-12-22T04:15:28ZdeuVerein Deutscher Bibliothekarinnen und Bibliothekare (VDB)o-bib. Das offene Bibliotheksjournal2363-98142022-11-019410.5282/o-bib/5885Projekt OCR-BWDorothee Huff0Kristina Stöbener1Universitätsbibliothek TübingenUniversitätsbibliothek Tübingen Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren. Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und seit 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Korpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können. https://www.o-bib.de/bib/article/view/5885OCRHTRAutomatische TexterkennungHandschriftDigital HumanitiesKünstliche Intelligenz
spellingShingle Dorothee Huff
Kristina Stöbener
Projekt OCR-BW
o-bib. Das offene Bibliotheksjournal
OCR
HTR
Automatische Texterkennung
Handschrift
Digital Humanities
Künstliche Intelligenz
title Projekt OCR-BW
title_full Projekt OCR-BW
title_fullStr Projekt OCR-BW
title_full_unstemmed Projekt OCR-BW
title_short Projekt OCR-BW
title_sort projekt ocr bw
topic OCR
HTR
Automatische Texterkennung
Handschrift
Digital Humanities
Künstliche Intelligenz
url https://www.o-bib.de/bib/article/view/5885
work_keys_str_mv AT dorotheehuff projektocrbw
AT kristinastobener projektocrbw