Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numéri...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Ecole des Sciences de l'Information
2022-12-01
|
Series: | Journal of Information Sciences |
Subjects: | |
Online Access: | https://revues.imist.ma/index.php/JIS/article/view/36599 |
_version_ | 1797423963549204480 |
---|---|
author | Ljudmila PETKOVIC Motasem ALRAHABI Glenn ROE |
author_facet | Ljudmila PETKOVIC Motasem ALRAHABI Glenn ROE |
author_sort | Ljudmila PETKOVIC |
collection | DOAJ |
description | Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté. |
first_indexed | 2024-03-09T07:55:26Z |
format | Article |
id | doaj.art-39e3223f1ee945ffa914993e1da07e92 |
institution | Directory Open Access Journal |
issn | 1113-4844 |
language | English |
last_indexed | 2024-03-09T07:55:26Z |
publishDate | 2022-12-01 |
publisher | Ecole des Sciences de l'Information |
record_format | Article |
series | Journal of Information Sciences |
spelling | doaj.art-39e3223f1ee945ffa914993e1da07e922023-12-03T01:09:15ZengEcole des Sciences de l'InformationJournal of Information Sciences1113-48442022-12-012124257https://doi.org/10.34874/IMIST.PRSM/jis-v21i2.36599Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruitéLjudmila PETKOVIC0Motasem ALRAHABI1Glenn ROE2Sorbonne Université, Faculté des Lettres Équipe-projet ObTIC, FranceObTIC - Sorbonne Université ObTIC - Sorbonne Université Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté.https://revues.imist.ma/index.php/JIS/article/view/36599correction d'orthographe automatiqueocrdocuments d’archives numériséesreconnaissance d’entités nomméestraitement automatique des langues |
spellingShingle | Ljudmila PETKOVIC Motasem ALRAHABI Glenn ROE Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité Journal of Information Sciences correction d'orthographe automatique ocr documents d’archives numérisées reconnaissance d’entités nommées traitement automatique des langues |
title | Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité |
title_full | Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité |
title_fullStr | Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité |
title_full_unstemmed | Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité |
title_short | Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité |
title_sort | impact de la correction automatique de l ocr htr sur la reconnaissance d entites nommees dans un corpus bruite |
topic | correction d'orthographe automatique ocr documents d’archives numérisées reconnaissance d’entités nommées traitement automatique des langues |
url | https://revues.imist.ma/index.php/JIS/article/view/36599 |
work_keys_str_mv | AT ljudmilapetkovic impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite AT motasemalrahabi impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite AT glennroe impactdelacorrectionautomatiquedelocrhtrsurlareconnaissancedentitesnommeesdansuncorpusbruite |