Sistema OCR para la extracción de información digitalizada proveniente de máquinas de escribir

La empresa XETID como parte de las empresas cubanas que se dedican al desarrollo de la informática tiene contratos con diferentes instituciones en las cuales se ha detectado la necesidad de gestionar la información presentes en los documentos generados por las mismas, entre las cuales se encuentra l...

Full description

Bibliographic Details
Main Authors: Devorat de las Mercedes Cespedes Rodrígu, José Ernesto Placeres La O
Format: Article
Language:Spanish
Published: Universidad de las Ciencias Informáticas (UCI) 2019-03-01
Series:Serie Científica de la Universidad de las Ciencias Informáticas
Subjects:
Online Access:https://publicaciones.uci.cu/index.php/serie/article/view/159
Description
Summary:La empresa XETID como parte de las empresas cubanas que se dedican al desarrollo de la informática tiene contratos con diferentes instituciones en las cuales se ha detectado la necesidad de gestionar la información presentes en los documentos generados por las mismas, entre las cuales se encuentra la búsqueda de información en pdf y en documentos digitalizados provenientes de máquinas de escribir, a estas empresas no contar con un sistema de búsqueda que permita la extracción del contenido(texto) presente en las imágenes esto evita la posibilidad de realizar búsquedas por el contenido presente en las mismas así como la aplicación de técnicas de minerías de textos para el resumen o clasificación del contenido. La realización de un sistema que permita la extracción de la información presente en los documentos permitiendo realizar tales operaciones, las cuales tienen un grado alto de complejidad debido a que dependen en gran medida de que los escáneres con que se realizaron la captura no poseen la suficiente calidad como para poder realizar el proceso de digitalización esto conlleva a que se tenga que también realizar un estudio muy profundo en el área de las técnicas de digitalización de imágenes para poder obtener los datos presentes en los documentos digitalizados.
ISSN:2306-2495