Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R
In den Umweltwissenschaften sind derzeit viele Forschungsprojekte datengetrieben und liefern Datensätze als wesentliche Ergebnisse. Das Publizieren von Daten nach den FAIR-Prinzipien, stellt damit einen zentralen Faktor in der Entwicklung von Forschungsdateninfrastrukturen dar. Provenance-Informati...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | deu |
Published: |
Gemeinsame Arbeitsgruppe Forschungsdaten der Deutschen Initiative für Netzwerkinformationen e.V. (DINI) und von nestor - Deutsches Kompetenznetzwerk zur digitalen Langzeitarchivierung
2022-03-01
|
Series: | Bausteine Forschungsdatenmanagement |
Online Access: | https://bausteine-fdm.de/article/view/8367 |
_version_ | 1797691390873829376 |
---|---|
author | Arne Rümmler Heiko Figgemeier Christin Henzen |
author_facet | Arne Rümmler Heiko Figgemeier Christin Henzen |
author_sort | Arne Rümmler |
collection | DOAJ |
description |
In den Umweltwissenschaften sind derzeit viele Forschungsprojekte datengetrieben und liefern Datensätze als wesentliche Ergebnisse. Das Publizieren von Daten nach den FAIR-Prinzipien, stellt damit einen zentralen Faktor in der Entwicklung von Forschungsdateninfrastrukturen dar. Provenance-Informationen als Teil der Metadaten beschreiben die Herkunft der Daten und unterstützen damit die Bewertung, Verständlichkeit und Reproduzierbarkeit von verfügbaren Forschungsdaten. Da eine händische und nachträgliche Erfassung von strukturierten Provenance-Information zeitintensiv ist, ist der Bedarf an (teil-)automatisierten Lösungen, die ein nutzerfreundliches und nahtloses Metadatenmanagement innerhalb einer Forschungsdateninfrastruktur ermöglichen, groß.
Im Forschungsprojekt GeoKur, einem Projekt zur Kuration und Qualitätssicherung von Umweltdaten, erfolgt die Datenanalyse und -erzeugung überwiegend in der Skriptsprache R. Dieser Erfahrungsbericht stellt daher die Evaluierung von Tools zur (teil-)automatisierten Erfassung von Provenance-Informationen in R-Skripten zusammen und beschreibt zwei selbst entwickelte Ansätze: (1) die Erzeugung von Provenance-Files mithilfe des selbst implementierten R-Pakets r2provo und (2) die direkte Publikation von Provenance-Informationen aus dem Analyseskript in einen Metadatenkatalog mittels R-Paket ckanr.
|
first_indexed | 2024-03-12T02:12:37Z |
format | Article |
id | doaj.art-e4643360ba0c4526bd963616149a523c |
institution | Directory Open Access Journal |
issn | 2626-7489 |
language | deu |
last_indexed | 2024-03-12T02:12:37Z |
publishDate | 2022-03-01 |
publisher | Gemeinsame Arbeitsgruppe Forschungsdaten der Deutschen Initiative für Netzwerkinformationen e.V. (DINI) und von nestor - Deutsches Kompetenznetzwerk zur digitalen Langzeitarchivierung |
record_format | Article |
series | Bausteine Forschungsdatenmanagement |
spelling | doaj.art-e4643360ba0c4526bd963616149a523c2023-09-06T12:39:31ZdeuGemeinsame Arbeitsgruppe Forschungsdaten der Deutschen Initiative für Netzwerkinformationen e.V. (DINI) und von nestor - Deutsches Kompetenznetzwerk zur digitalen LangzeitarchivierungBausteine Forschungsdatenmanagement2626-74892022-03-01110.17192/bfdm.2022.1.8367Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in RArne Rümmler0Heiko FiggemeierChristin Henzen1TU DresdenTU Dresden In den Umweltwissenschaften sind derzeit viele Forschungsprojekte datengetrieben und liefern Datensätze als wesentliche Ergebnisse. Das Publizieren von Daten nach den FAIR-Prinzipien, stellt damit einen zentralen Faktor in der Entwicklung von Forschungsdateninfrastrukturen dar. Provenance-Informationen als Teil der Metadaten beschreiben die Herkunft der Daten und unterstützen damit die Bewertung, Verständlichkeit und Reproduzierbarkeit von verfügbaren Forschungsdaten. Da eine händische und nachträgliche Erfassung von strukturierten Provenance-Information zeitintensiv ist, ist der Bedarf an (teil-)automatisierten Lösungen, die ein nutzerfreundliches und nahtloses Metadatenmanagement innerhalb einer Forschungsdateninfrastruktur ermöglichen, groß. Im Forschungsprojekt GeoKur, einem Projekt zur Kuration und Qualitätssicherung von Umweltdaten, erfolgt die Datenanalyse und -erzeugung überwiegend in der Skriptsprache R. Dieser Erfahrungsbericht stellt daher die Evaluierung von Tools zur (teil-)automatisierten Erfassung von Provenance-Informationen in R-Skripten zusammen und beschreibt zwei selbst entwickelte Ansätze: (1) die Erzeugung von Provenance-Files mithilfe des selbst implementierten R-Pakets r2provo und (2) die direkte Publikation von Provenance-Informationen aus dem Analyseskript in einen Metadatenkatalog mittels R-Paket ckanr. https://bausteine-fdm.de/article/view/8367 |
spellingShingle | Arne Rümmler Heiko Figgemeier Christin Henzen Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R Bausteine Forschungsdatenmanagement |
title | Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R |
title_full | Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R |
title_fullStr | Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R |
title_full_unstemmed | Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R |
title_short | Lösungsansätze zur automatisierten Erfassung und Weiterverarbeitung von strukturierten Provenance-Informationen in Forschungsdateninfrastrukturen am Beispiel von Analyse-Workflows in R |
title_sort | losungsansatze zur automatisierten erfassung und weiterverarbeitung von strukturierten provenance informationen in forschungsdateninfrastrukturen am beispiel von analyse workflows in r |
url | https://bausteine-fdm.de/article/view/8367 |
work_keys_str_mv | AT arnerummler losungsansatzezurautomatisiertenerfassungundweiterverarbeitungvonstrukturiertenprovenanceinformationeninforschungsdateninfrastrukturenambeispielvonanalyseworkflowsinr AT heikofiggemeier losungsansatzezurautomatisiertenerfassungundweiterverarbeitungvonstrukturiertenprovenanceinformationeninforschungsdateninfrastrukturenambeispielvonanalyseworkflowsinr AT christinhenzen losungsansatzezurautomatisiertenerfassungundweiterverarbeitungvonstrukturiertenprovenanceinformationeninforschungsdateninfrastrukturenambeispielvonanalyseworkflowsinr |