Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos

Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documento...

Full description

Bibliographic Details
Main Authors: Lázaro Janier González Soler, Airel Pérez Suárez, Leonardo Chang Fernández
Format: Article
Language:English
Published: Cátedra UNESCO en Gestión de Información en las Organizaciones (La Habana) 2022-12-01
Series:GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
Subjects:
Online Access:https://mail.gecontec.org/index.php/unesco/article/view/76
Description
Summary:Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional O(n2) y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA DClus en términos de eficiencia y consumo de memoria.
ISSN:2255-5684