Générer un jeu de données structuré à partir d’un texte océrisé
Ce tutoriel présente des stratégies pour traiter la sortie OCR brute issue d’un texte scanné, l’analyser afin d’isoler et de corriger les éléments essentiels des métadonnées, et générer un ensemble de données structuré (un dictionnaire Python) à partir de celle-ci.
Main Author: | |
---|---|
Format: | Article |
Language: | fra |
Published: |
Editorial Board of the Programming Historian
2021-11-01
|
Series: | The Programming Historian en Français |
Online Access: | https://programminghistorian.org/fr/lecons/generer-jeu-donnees-texte-ocr |