Pruebas de hipótesis para los valores atípicos de datos

Varias pruebas estadísticas formales que están diseñados para detectar valores atípicos de datos. Tres de ellos toman la forma de las pruebas de hipótesis. Una prueba de hipótesis es un procedimiento para determinar si una proposición puede ser rechazada en base a datos de la muestra. Las pruebas de hipótesis siempre implican la comparación de una prueba estadística de los datos a una distribución apropiada para determinar si una hipótesis dada se apoya en los datos.

prueba de Grubbs

Con una prueba de Grubbs, se asume que el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:

MARIDO0: No hay valores atípicos.

MARIDO1: Hay por lo menos un valor atípico.

La estadística de prueba es el siguiente:

dónde

GRAMO = La estadística de prueba para la prueba de la Grubbs’

Yi = Un solo elemento en el conjunto de datos está probando

Y = La media de la muestra

s = La desviación estándar de la muestra

La estadística de prueba produce el elemento de muestra que está más lejos de la media de la muestra (positivo o negativo) expresados ​​como desviaciones estándar. Por ejemplo, si la media de la muestra es de 5, el elemento de muestra más grande es de 11, y la desviación estándar de la muestra es 2, entonces la estadística de prueba sería (11 - 5) / 2 = 6/2 = 3 desviaciones estándar de distancia de la media .

El valor crítico es el siguiente:

Dónde

norte es el tamaño de la muestra extraída de la población.

t es un valor extraído de la t de Student-distribución- que tiene un área de cola derecha igual al nivel de significación y norte - 2 grados de libertad (gl).

La prueba puede llevarse a cabo para determinar si hay un valor atípico, si el valor máximo es un valor atípico, ya sea el valor mínimo es un valor atípico, y así sucesivamente.

Por ejemplo, la siguiente muestra los resultados de aplicar la prueba de Grubbs a la S&P 500 regresa de 2009-2013. La prueba se llevó a cabo para encontrar un único valor atípico. resultados de la prueba de Grubbs’ para un valor atípico:

Datos: SPReturns

G = 3,8509, U = 0,9404, p-valor = 0,01177

hipótesis alternativa: Valor más bajo -0.0253283545257448 es un valor atípico

Con un nivel de significación igual a 0,05, y un valor de p de 0,01177, el valor de p está por debajo del nivel de significación. Por lo tanto, se rechaza la hipótesis nula de ningún valor atípico. Además, el ensayo indica que el valor mínimo en el conjunto de datos es un valor atípico.

prueba de chi-cuadrado

Puede comprobar los valores atípicos con la distribución chi-cuadrado. Las hipótesis nula y alternativa son los siguientes:

MARIDO0: No hay valores atípicos.

MARIDO1: Hay por lo menos un valor atípico.

La estadística de prueba se basa en las diferencias entre los miembros reales de un conjunto de datos y los miembros correspondientes de una distribución de probabilidad asumido, como la normal.

Por ejemplo, la siguiente muestra los resultados de aplicar la prueba de chi-cuadrado para el S&P 500 regresa de 2009 a 2013:

prueba de chi-cuadrado para valores atípicos

Datos: SPReturns

X-cuadrado = 14,8292, p-valor = 0,01177

hipótesis alternativa: Valor más bajo -0.0253283545257448 es un valor atípico

Con un nivel de significación igual a 0,05, y un valor de p de 0,01177, el valor de p está por debajo del nivel de significación. Por lo tanto, se rechaza la hipótesis nula de ningún valor atípico. Además, el ensayo indica que el valor mínimo en el conjunto de datos es un valor atípico.

prueba Q de Dixon

Con la prueba Q de Dixon, usted asume el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:

MARIDO0: No hay valores atípicos.

MARIDO1: Hay por lo menos un valor atípico.

La estadística de prueba es el siguiente:

Brecha se refiere al valor absoluto de la diferencia entre un valor atípico y el siguiente valor más cercano en el conjunto de datos. Distancia se refiere a la diferencia entre el valor más grande en el conjunto de datos y el valor más pequeño en el conjunto de datos.

Uno de los inconvenientes de la prueba Q de Dixon es que se puede aplicar sólo a una muestra que contiene entre 3 y 30 observaciones.

Video: Como detectar outliers en SPSS

A continuación se muestran los resultados de aplicar la prueba Q de Dixon a la S&P 500 vuelve durante los primeros 30 días de negociación de 2009:

prueba de Dixon por los valores extremos

Video: Calculo de valores críticos Z con Excel

Datos: SPR

Q = 0,4359, p-valor = 0,03185

hipótesis alternativa: Valor más bajo -0.0116057775514049 es un valor atípico

Video: ¿Como identificar datos atípicos? (Pruebas de Dixon)

Con un nivel de significación igual a 0,05, y un valor de p de 0,03185, el valor de p está por debajo del nivel de significación. Por lo tanto, se rechaza la hipótesis nula de ningún valor atípico. Además, el ensayo indica que el valor mínimo en el conjunto de datos es un valor atípico.

Artículos Relacionados