Cómo utilizar mahout Apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros algoritmos de minería de datos que pueden apoyar un análisis predictivo a gran escala del modelo.

Una manera muy recomendable para procesar los datos necesarios para un modelo de este tipo es ejecutar Mahout en un sistema que ya está funcionando Hadoop. Hadoop designa una máquina maestra que orquesta las otras máquinas (tales como máquinas de Mapa y Reducir máquinas) empleados en su procesamiento distribuido. Mahout debe estar instalado en la máquina principal.

Imagine que tiene gran cantidad de datos por streaming - Google artículos de noticias - y que le gustaría a agruparse por tema, utilizando uno de los algoritmos de agrupamiento. Después de instalar Hadoop y Mahout, puede ejecutar uno de los algoritmos - tales como K-means - en sus datos.

La aplicación de K-means bajo Mahout utiliza un enfoque MapReduce, que hace que sea diferente de la aplicación normal de K-means. Mahout subdivide el algoritmo k-medias en estos sub-procedimientos:

KmeansMapper lee el conjunto de datos de entrada y asignará cada punto de entrada a sus más cercanos medios inicialmente seleccionados (representantes del clúster).
KmeansCombiner procedimiento se llevará a todos los registros - pares - producidos por KmeansMapper y produce sumas parciales para facilitar el cálculo de los representantes de racimo posteriores.
KmeansReducer recibe los valores producidos por todas las subtareas (combinadores) para calcular los centroides reales de los racimos que es la salida final del K-means.
KmeansDriver se ocupa de las iteraciones del proceso hasta que todos los grupos han convergido. La salida de una iteración dada, una salida de la agrupación parcial, se utiliza como entrada para la siguiente iteración. El proceso de asignación y reducir el conjunto de datos hasta que la asignación de los registros y clusters no muestran más cambios.

Apache Mahout es un recientemente desarrollado proyecto- su funcionalidad todavía tiene mucho espacio para dar cabida a las extensiones. Mientras tanto, Mahout ya usa MapReduce para poner en práctica la clasificación, agrupación, y otras técnicas de aprendizaje de máquina - y puede hacerlo a gran escala.