Читать книгу Big data. IFCT128PO - José Antonio Castillo Romero - Страница 19
4.1. Rápido repaso al modelo MapReduce
ОглавлениеUn ejemplo claro del nuevo escenario que abrió el World Wide Web lo tenemos en Google que logró implantar con éxito su novedoso algoritmo Page-Rank, el cual era capaz de analizar datos de multitud de sitios web.
Ya existían en la época algoritmos capaces de procesar grandes volúmenes de datos de forma paralela, usando para ello grandes máquinas de análisis con varios núcleos en conjuntos o clusters (High Performance Computing o HPC). Pero en el caso de Google, con PageRank optó por una estrategia distinta: implantar un conjunto de máquinas de menor tamaño y menor capacidad de procesamiento.
Esta solución se basa en dos elementos. Por un lado, la existencia de un sistema de ficheros distribuidos para la gestión del almacenamiento de los datos de manera segmentada y, además, replicada entre las distintas máquinas. Por otro lado, un software que tiene implementadas las diferentes tareas para cada máquina. Este software permitía una más fácil implementación de nuevos programas que trabajaran con los datos. A este modelo se le llamó MapReduce.
Función Map
Transforma los datos brutos en datos intermedios transformados en claves y valor que se agrupan según la misma clave.
Función Reduce
Agrupa los valores de los datos sumándolos y se produce el resultado final.