Procesamiento de big data en Hadoop usando el repartition join

El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programa...

Full description

Bibliographic Details
Main Authors: Néstor Iván Escalante Fol, Alberto Portilla Flores, Genoveva Vargas-Solar, Carolina Rocío Sánchez Pérez, Marva Angélica Mora Lumbreras
Format: Article
Language:English
Published: Universidad Autónoma del Estado de Morelos 2015-06-01
Series:Programación Matemática y Software
Subjects:
Online Access:https://progmat.uaem.mx/progmat/index.php/progmat/article/view/243
Description
Summary:El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.
ISSN:2007-3283