Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité

Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numéri...

Full description

Bibliographic Details
Main Authors: Ljudmila PETKOVIC, Motasem ALRAHABI, Glenn ROE
Format: Article
Language:English
Published: Ecole des Sciences de l'Information 2022-12-01
Series:Journal of Information Sciences
Subjects:
Online Access:https://revues.imist.ma/index.php/JIS/article/view/36599
_version_ 1797423963549204480
author Ljudmila PETKOVIC
Motasem ALRAHABI
Glenn ROE
author_facet Ljudmila PETKOVIC
Motasem ALRAHABI
Glenn ROE
author_sort Ljudmila PETKOVIC
collection DOAJ
description Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté.
first_indexed 2024-03-09T07:55:26Z
format Article
id doaj.art-39e3223f1ee945ffa914993e1da07e92
institution Directory Open Access Journal
issn 1113-4844
language English
last_indexed 2024-03-09T07:55:26Z
publishDate 2022-12-01
publisher Ecole des Sciences de l'Information
record_format Article
series Journal of Information Sciences
spelling doaj.art-39e3223f1ee945ffa914993e1da07e922023-12-03T01:09:15ZengEcole des Sciences de l'InformationJournal of Information Sciences1113-48442022-12-012124257https://doi.org/10.34874/IMIST.PRSM/jis-v21i2.36599Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruitéLjudmila PETKOVIC0Motasem ALRAHABI1Glenn ROE2Sorbonne Université, Faculté des Lettres Équipe-projet ObTIC, FranceObTIC - Sorbonne Université ObTIC - Sorbonne Université Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté.https://revues.imist.ma/index.php/JIS/article/view/36599correction d'orthographe automatiqueocrdocuments d’archives numériséesreconnaissance d’entités nomméestraitement automatique des langues
spellingShingle Ljudmila PETKOVIC
Motasem ALRAHABI
Glenn ROE
Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
Journal of Information Sciences
correction d'orthographe automatique
ocr
documents d’archives numérisées
reconnaissance d’entités nommées
traitement automatique des langues
title Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
title_full Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
title_fullStr Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
title_full_unstemmed Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
title_short Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
title_sort impact de la correction automatique de l ocr htr sur la reconnaissance d entites nommees dans un corpus bruite
topic correction d'orthographe automatique
ocr
documents d’archives numérisées
reconnaissance d’entités nommées
traitement automatique des langues
url https://revues.imist.ma/index.php/JIS/article/view/36599
work_keys_str_mv AT ljudmilapetkovic impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite
AT motasemalrahabi impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite
AT glennroe impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite