Projekt OCR-BW
Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Währen...
Main Authors: | , |
---|---|
Format: | Article |
Language: | deu |
Published: |
Verein Deutscher Bibliothekarinnen und Bibliothekare (VDB)
2022-11-01
|
Series: | o-bib. Das offene Bibliotheksjournal |
Subjects: | |
Online Access: | https://www.o-bib.de/bib/article/view/5885 |
_version_ | 1798016288738508800 |
---|---|
author | Dorothee Huff Kristina Stöbener |
author_facet | Dorothee Huff Kristina Stöbener |
author_sort | Dorothee Huff |
collection | DOAJ |
description |
Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren. Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und seit 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Korpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können.
|
first_indexed | 2024-04-11T15:48:34Z |
format | Article |
id | doaj.art-d99395dfbe7e4ecd9ebee622f63336db |
institution | Directory Open Access Journal |
issn | 2363-9814 |
language | deu |
last_indexed | 2024-04-11T15:48:34Z |
publishDate | 2022-11-01 |
publisher | Verein Deutscher Bibliothekarinnen und Bibliothekare (VDB) |
record_format | Article |
series | o-bib. Das offene Bibliotheksjournal |
spelling | doaj.art-d99395dfbe7e4ecd9ebee622f63336db2022-12-22T04:15:28ZdeuVerein Deutscher Bibliothekarinnen und Bibliothekare (VDB)o-bib. Das offene Bibliotheksjournal2363-98142022-11-019410.5282/o-bib/5885Projekt OCR-BWDorothee Huff0Kristina Stöbener1Universitätsbibliothek TübingenUniversitätsbibliothek Tübingen Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren. Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und seit 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Korpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können. https://www.o-bib.de/bib/article/view/5885OCRHTRAutomatische TexterkennungHandschriftDigital HumanitiesKünstliche Intelligenz |
spellingShingle | Dorothee Huff Kristina Stöbener Projekt OCR-BW o-bib. Das offene Bibliotheksjournal OCR HTR Automatische Texterkennung Handschrift Digital Humanities Künstliche Intelligenz |
title | Projekt OCR-BW |
title_full | Projekt OCR-BW |
title_fullStr | Projekt OCR-BW |
title_full_unstemmed | Projekt OCR-BW |
title_short | Projekt OCR-BW |
title_sort | projekt ocr bw |
topic | OCR HTR Automatische Texterkennung Handschrift Digital Humanities Künstliche Intelligenz |
url | https://www.o-bib.de/bib/article/view/5885 |
work_keys_str_mv | AT dorotheehuff projektocrbw AT kristinastobener projektocrbw |