Las limitaciones de muestreo en hadoop

Video: Como Calcular el tamaño de la Muestra.wmv

análisis estadísticos está lejos de ser un nuevo chico en el bloque, y sin duda es una noticia vieja que depende de procesar grandes cantidades de datos para obtener nuevos conocimientos. Sin embargo, la cantidad de datos que se procesa tradicionalmente por estos sistemas se encontraba en el rango entre 10 y 100 (o cientos de) gigabytes - rangos no la terabytes o petabytes visto hoy, en otras palabras.

Video: Muestreo y tratamiento preliminar de la muestra

Y que a menudo requiere un costoso multi-proceso simétrico máquina (SMP) con tanta memoria como sea posible para mantener siendo analizados los datos. Esto se debe a que muchos de los algoritmos utilizados por los enfoques analíticos eran bastante “computación intensiva” y fueron diseñados para funcionar en la memoria - ya que requieren múltiples, ya menudo frecuentes, pasa a través de los datos.

Ante hardware costoso y bastante alto compromiso en términos de tiempo y la memoria RAM, la gente trató de hacer los análisis workload un poco más razonable mediante el análisis de sólo una muestra de los datos. La idea era mantener las montañas sobre las montañas de datos escondidos de manera segura en los almacenes de datos, sólo se mueve una muestra estadísticamente significativa de los datos de sus repositorios a un motor estadístico.

Video: Tamaño de la muestra

Mientras que el muestreo es una buena idea en teoría, en la práctica esto es a menudo una táctica poco fiable. Encontrar un muestreo estadísticamente significativa puede ser un reto para los conjuntos de datos dispersos y / o sesgadas, que son bastante comunes. Esto conduce a muestreos mal juzgados, que pueden introducir los valores atípicos y los puntos de datos anómalos, y puede, a su vez, el sesgo de los resultados de su análisis.