Générer un jeu de données structuré à partir d’un texte océrisé

Ce tutoriel présente des stratégies pour traiter la sortie OCR brute issue d’un texte scanné, l’analyser afin d’isoler et de corriger les éléments essentiels des métadonnées, et générer un ensemble de données structuré (un dictionnaire Python) à partir de celle-ci.

Bibliographic Details
Main Author: Jon Crump
Format: Article
Language:fra
Published: Editorial Board of the Programming Historian 2021-11-01
Series:The Programming Historian en Français
Online Access:https://programminghistorian.org/fr/lecons/generer-jeu-donnees-texte-ocr