Los factores que aumentan la escala de análisis estadístico en hadoop

Video: SPSS Escalamiento Multidimensional

La razón la gente probar sus datos antes de ejecutar el análisis estadístico en Hadoop es que este tipo de análisis a menudo requiere recursos informáticos significativos. Esto no se trata sólo de los volúmenes de datos: hay cinco factores principales que influyen en la escala de análisis estadístico:

  • Éste es fácil, pero tenemos que mencionar que: el volumen de datos en los que se va a realizar el análisis definitivamente determina la escala del análisis.

    Video: Análisis de datos - ESCALAR

  • El número de transformaciones necesarias en el conjunto de datos antes de aplicar modelos estadísticos es sin duda un factor.

  • El número de correlaciones por pares que necesita para calcular juega un papel.

    Video: Escalas de medición de una variable

  • El grado de complejidad de los cálculos estadísticos que se aplicará es un factor.

    Video: 2 Bases para el análisis de datos Escalas de Medición

  • El número de modelos estadísticos que han aplicado a su conjunto de datos juega un papel importante.

Hadoop ofrece una manera de salir de este dilema, proporcionando una plataforma para realizar cálculos de procesamiento masivamente paralelo en los datos en Hadoop.

Al hacerlo, es capaz de dar la vuelta a los datos analíticos en lugar Flow de mover los datos desde su repositorio en el servidor de análisis, Hadoop ofrece análisis directamente a los datos. Más específicamente, el HDFS le permite almacenar sus montañas de datos y luego llevar el cómputo (en forma de tareas de MapReduce) a los nodos esclavos.

El reto común que plantea el movimiento de los sistemas tradicionales multi-proceso simétrico (SMP) estadísticos a la arquitectura Hadoop es la localidad de los datos. En plataformas SMP tradicionales, múltiples procesadores comparten el acceso a un único recurso de memoria principal.

En Hadoop, HDFS replica particiones de datos a través de múltiples nodos y las máquinas. Además, los algoritmos estadísticos que fueron diseñados para el procesamiento de datos en memoria ahora deben adaptarse a los conjuntos de datos que abarcan varios nodos / bastidores y no podía esperar para caber en un solo bloque de memoria.

Artículos Relacionados