Utilización de modelos estadísticos de MapReduce de Hadoop

La conversión de modelos estadísticos para funcionar en paralelo es una tarea difícil. En el paradigma tradicional de la programación en paralelo, de acceso a memoria se regula mediante el uso de trapos - subprocesos creados por el sistema operativo para distribuir una única memoria compartida entre varios procesadores.

Factores tales como las condiciones de carrera entre los hilos de la competencia - cuando dos o más hilos intentan cambiar los datos compartidos a la vez - pueden influir en el rendimiento de su algoritmo, así como afectar a la precisión de los resultados estadísticos sus salidas del programa - en particular para largo la conducta de análisis de grandes conjuntos de la muestra.

Un enfoque pragmático a este problema es asumir que no muchos estadísticos conocerán los pormenores de MapReduce (y viceversa), ni se puede esperar que van a ser consciente de todos los peligros que conlleva la programación paralela. Los colaboradores para el proyecto Hadoop tienen (y continúan desarrollando) con herramientas estadísticas en cuenta estas realidades.

El resultado: Hadoop ofrece muchas soluciones para la implementación de los algoritmos necesarios para realizar el modelado y análisis estadístico, sin sobrecargar el estadístico con las consideraciones de programación paralela matizadas.