Los estadísticos robustos y grandes volúmenes de datos

Una estadística se dice que es robusto si no está fuertemente influenciada por la presencia de valores atípicos. Por ejemplo, la media no es robusta, ya que puede estar fuertemente afectada por la presencia de valores atípicos. Por otro lado, la mediana es robusta - no se ve afectada por los valores extremos.

Por ejemplo, supongamos que los siguientes datos representa una muestra de los ingresos familiares en un pequeño pueblo (medido en miles de dólares por año):

32, 47, 20, 25, 56

Video: Privacidad desde el diseño y en el despliegue: Proteger los datos en la era del Big Data

A calcular la media de la muestra como la suma de las cinco observaciones dividida por cinco:

La media de la muestra es de $ 36,000 por año. La mayoría de los hogares de la muestra están muy cerca de este valor.

Supongamos que en lugar de que la muestra se compone de los siguientes valores:

32, 47, 20, 25, 376

Video: En defensa de la mediana

Debido a que el ingreso familiar de $ 376.000 es sustancialmente mayor que el ingreso familiar más próximo de $ 32.000, el ingreso familiar de $ 376.000 puede ser considerado como un valor atípico.

Con el valor atípico, significa que la muestra se presenta como sigue:

Esta medida no es representativa de la mayoría de los hogares de la ciudad. Por lo tanto, la utilidad de la media se ve comprometida en la presencia de valores atípicos.

A calcular la mediana de la muestra mediante la clasificación de los datos de menor a mayor y luego encontrar el valor que divide la muestra por la mitad. En otras palabras, la mitad de las observaciones están por debajo de la mediana, y la mitad están por encima.

La primera muestra:

32, 47, 20, 25, 56

La muestra ordenados:

20, 25, 32, 47, 56

En este caso, la mediana es 32 porque la mitad de las observaciones restantes están por debajo de 32 y medio están por encima de ella.

La segunda muestra:

32, 47, 20, 25, 376

Video: PRUEBAS DE HIPÓTESIS ROBUSTOS PARA LA MEDIA

La muestra ordenados:

20, 25, 32, 47, 376

A pesar de la presencia del valor atípico de 376, siendo la mediana es 32. No se ha visto afectada por el valor atípico. Esto demuestra que a diferencia de la media, la mediana es robusto con respecto a los valores atípicos.

Video: El Doble y El Desdoblamiento del Tiempo | Video 4: REM Healing© | Enrique Villanueva

Otros ejemplos de estadísticas sólidas incluyen la mediana, desviación absoluta, y el rango intercuartil.

Artículos Relacionados