pruebas gráficas de los valores atípicos de datos

La identificación de los valores atípicos de datos no es una cuestión de cortar y se secó. No puede haber desacuerdo sobre lo que hace y no califica como un valor atípico. La definición de un valor atípico depende de la distribución de probabilidad asumido de una población. Por ejemplo, si la población realmente se distribuye normalmente, la gráfica de un conjunto de datos debe tener la misma forma de campana de la firma - si no es así, que podría ser una señal de que hay valores atípicos en los datos.

Es posible utilizar tres técnicas gráficas para identificar valores atípicos:

histogramas
Los diagramas de caja
QQ-parcelas

histogramas

UN histograma es un gráfico utilizado para representar visualmente una distribución de probabilidad con una serie de barras verticales. El eje horizontal muestra los valores o rangos de valores para la variable que se está estudiando, y el eje vertical muestra las frecuencias correspondientes de estos valores.

Como ejemplo, el estándar y 500 el índice de Poor (S&P 500) es un índice bursátil que representa el precio de los 500 valores más grandes de Estados Unidos, ponderado por su capitalización de mercado. de una acción capitalización de mercado es igual al precio por acción veces el número de acciones en circulación.

La figura muestra un histograma de los retornos diarios para el índice de mercado de 500 acciones de Standard and Poor durante los años 2009-2013.

Un histograma de los retornos diarios a la amp S &; P 500 2009-2013.

Un histograma de los retornos diarios a la S&P 500 2009-2013.

Video: SPSSavanzado Deteccion de atípicos multivariados OUTLIERS en SPSS.wmv

De acuerdo con este histograma, la mayor parte de los retornos estaban cerca de cero durante este período. Rendimientos por encima 0,01 (1 por ciento) o por debajo de -0,01 (-1 por ciento) ocurrieron relativamente con poca frecuencia. Sin embargo, para los rendimientos que no se producen fuera de la pequeña gama alrededor de 0, la ocurrencia de resultados negativos superado la aparición de resultados positivos, como se ve por la longitud extrema de la cola izquierda.

La forma del histograma muestra que la distribución de los rendimientos a la Norma y Poor 500 durante este período es poco probable que sea normal. Un problema es que la distribución normal es simétrica alrededor de su media, mientras que el histograma muestra que la distribución de los rendimientos es sesgado negativamente (Es decir, hay un desequilibrio entre los rendimientos negativos y positivos, con más negativos que positivos retornos).

Video: Prueba de Normalidad, Grubbs y trabajo con datos atipicos y/o faltantes

Los diagramas de caja

UN diagrama de cajas muestra la distribución de un conjunto de datos en una caja. El cuadro se basa en cuartiles, que son como los percentiles excepto que sólo cuatro de ellos son. El diagrama de caja está estructurado como sigue:

La parte superior de la caja representa la tercer cuartil (O cuartil superior) (Q₃) De los datos. Esto es equivalente al 75 por ciento.
La parte inferior de la caja representa la primer cuartil (O cuartil inferior) (Q₁) De los datos. Esto es equivalente al percentil 25.
El medio de la caja (que se muestra con una línea) representa la segundo cuartil (Q₂) De los datos (también conocidas como la mediana).

El primer cuartil de un conjunto de datos es un valor que es mayor que 25 por ciento de los elementos del conjunto de datos y menor que el 75 por ciento restante. El segundo cuartil (es decir, la mediana) es un valor que es mayor que 50 por ciento de los elementos y menor que el 50 por ciento restante. El tercer cuartil es un valor que es mayor que 75 por ciento de los elementos y menor que el 25 por ciento restante.

los rango intercuartil (IQR) se define como la diferencia entre el tercer y primer cuartiles:

IQR = Q₃ - Q₁

los RIC se utiliza como una medida de dispersión, o cómo difundir los datos están alrededor del centro. También se puede utilizar para identificar valores atípicos.

Para un diagrama de caja, hay líneas encima y debajo de la caja. La línea superior representa el valor máximo en un conjunto de datos, con exclusión de los valores atípicos. La línea inferior representa el valor mínimo de un conjunto de datos, de nuevo excluyendo valores atípicos. Los puntos individuales que se muestran arriba y por debajo de estas líneas son los valores atípicos en el conjunto de datos.

Cuando se está usando un diagrama de caja, un valor atípico se define como sigue:

Si un punto de datos está por debajo de Q₁ - 1.5 (IQR), que se considera que es un valor atípico.
Si un punto de datos está por encima de Q₃ + 1.5 (IQR), que se considera que es un valor atípico.

La siguiente figura muestra un diagrama de caja de los retornos diarios a la S&P 500 índice de la bolsa durante los años 2009-2013.

Un diagrama de caja de los retornos diarios a la amp S &; P 500 2009-2013.

Un diagrama de caja de los retornos diarios a la S&P 500 2009-2013.

El diagrama de caja muestra que hay un valor atípico que es significativamente mayor que el resto de los retornos en el conjunto de datos. También hay cuatro valores atípicos que son significativamente más pequeño que el resto de los retornos en el conjunto de datos. La existencia de estos valores atípicos muestra que el conjunto de datos no puede ser una distribución normal.

QQ-parcelas

Puede representar datos de la muestra con una QQ-plot (Abreviatura de trama cuantil-cuantil). Esta parcela compara los cuantiles de los datos de la muestra con los cuantiles de una distribución de probabilidad especificada, como la normal.

cuantiles se utilizan para dividir un conjunto de datos en grupos de igual tamaño en función del valor de una variable numérica particular. Hay varios tipos de cuantiles, incluyendo las siguientes:

percentiles dividir un conjunto de datos en 100 grupos iguales, cada uno correspondiente a un porcentaje del total. Por ejemplo, si un grupo de 1.000 estudiantes toma un examen estandarizado, y 200 de ellos reciben una puntuación por debajo de 300, luego 300 sería el percentil 20 de este conjunto de datos. Esto indica que 20 por ciento de estudiantes obtuvo por debajo de 300, mientras que el 80 por ciento restante obtuvo mayor que 300.
deciles dividir un conjunto de datos en diez grupos iguales, cada uno representando un 10 por ciento del total. Por ejemplo, el cuarto decil corresponde al percentil 40.
cuartiles dividir un conjunto de datos en cuatro grupos iguales, cada uno representando un 25 por ciento del total. Por ejemplo, la tercera cuartil corresponde al 75 por ciento.

La siguiente figura muestra un QQ-plot de los retornos diarios a la S&P índice de mercado 500 de valores durante 2009-2013, en comparación con la distribución normal:

A QQ-plot de los retornos diarios a la amp S &; P 500 2009-2013.

A QQ-plot de los retornos diarios a la S&P 500 2009-2013.

La línea continua en el gráfico representa los cuantiles de la distribución normal. 0 representa la media a lo tanto, la mitad de los valores están por debajo de 0, y la mitad son por encima de ella. Alrededor del 95 por ciento de los valores están por debajo de 2 (2 representa dos desviaciones estándar por encima de la media), mientras que el 5 por ciento de los valores están por debajo de -2 (-2 representa dos desviaciones estándar por debajo de la media). Si el S&retornos P se distribuyen normalmente, sus cuantiles deben estar en la línea.

Los puntos en la gráfica son las observaciones reales en el S&P 500 conjunto de datos. Para los cuantiles normales que son mayores que 2 (es decir, dos desviaciones estándar por encima de la media), el S&P 500 retornos están por encima de la línea, lo que indica que la cola derecha es demasiado “grasa” para ser coherente con la distribución normal. Para cuantiles normales que están por debajo de -1 (es decir, una desviación estándar por debajo de la media), el S&P 500 vuelve debajo de la línea, lo que indica que la cola izquierda también es demasiado gordo para ser coherente con la distribución normal.

En general, la distribución de los rendimientos a la S&P 500 parece ser una distribución de grasa de cola, lo que significa que los resultados extremos son mucho más probable que lo que sería el caso con la distribución normal.