Técnicas de eda de supuestos de prueba

Hay varias técnicas de análisis exploratorio de datos (EDA) se puede utilizar para probar hipótesis acerca de un conjunto de datos. Estos incluyen parcela secuencia de ejecución, se quedan trama, histograma, y ​​gráfico de probabilidad normal.

parcela secuencia de ejecución

Muchas técnicas estadísticas se basan en la suposición de que los datos que se analiza tiene las siguientes propiedades:

  • Variables independientes

  • Variables extraídas de una distribución de probabilidad común

  • Las variables con parámetros comunes (por ejemplo, media y desviación estándar)

UN parcela secuencia de ejecución pruebas de si los datos se ajusta a estos supuestos. Por ejemplo, la siguiente figura muestra un gráfico de secuencia de ejecución de los retornos diarios a índice bursátil Standard and Poor.

Ejecutar parcela secuencia de los retornos diarios a la amp; S & P 500.
Ejecutar gráfico de sucesión de los rendimientos diarios a la S&P 500.

Debido a que este es un gráfico de series de tiempo, que está siendo utilizado para determinar si los vuelve a la S&P 500 son independientes uno de otro, si todos ellos son extraídas de la misma distribución de probabilidad, y si los parámetros (media y varianza) permanece constante con el tiempo.

La trama secuencia de ejecución está diseñado para responder a estas preguntas:

Video: ¿CÓMO SE SABE LA EDAD DE UN FÓSIL?

  • ¿Hay algún cambio en la media de los datos?

    Video: Supuestos ANOVA SPSS

  • ¿Hay algún cambio en la varianza de los datos?

Además, se utiliza la trama secuencia de ejecución para identificar valores atípicos en los datos.

La trama de los rendimientos de la S&P 500 muestra que la media y la varianza de los datos se mantienen estables en el tiempo, y que no parecen ser cualquier valor atípico.

parcela lag

UN parcela de retraso determina si los elementos de un conjunto de datos son aleatorio (Independientes entre sí). En otras palabras, la trama muestra si hay un patrón en los datos. Patrones en los datos son incompatibles con aleatoriedad.

Un valor rezagado es uno que ha ocurrido en el pasado. Un retraso de 1 se refiere a una observación que ha tenido lugar un período en el pasado. Un retraso de 2 se refiere a una observación que ha tenido lugar dos períodos en el pasado, y así sucesivamente.

Una parcela lag muestra los valores de una variable en el eje vertical, y los valores de la misma variable quedó en el eje horizontal. Por ejemplo, esta figura muestra un diagrama de retraso para los retornos diarios a índice bursátil Standard and Poor.

parcela de retraso de los rendimientos diarios a Standard and Poor`s 500 in 2013.
Lag parcela de retornos diarios a la Standard and Poor 500 en 2013.

Los puntos en esta trama están dispersos aleatoriamente con ningún patrón particular. Esto es consistente con la hipótesis de aleatoriedad en los datos.

histograma

Puede utilizar una histograma para identificar la distribución seguido de un conjunto de datos. Un histograma puede mostrar varios detalles clave sobre un conjunto de datos, incluyendo las siguientes:

Video: A2 La ciencia de la edad (Arturo Olivares)

  • El centro de los datos

  • La propagación (variabilidad) de los datos

  • La asimetría de los datos (si los hay)

  • La presencia de valores atípicos

Por ejemplo, esta figura muestra un histograma de los retornos diarios a índice bursátil Standard and Poor.

Histograma de los retornos diarios a la amp; S & P 500.
Histograma de los rendimientos diarios a la S&P 500.

Video: Test de Bender Simbolico

El gráfico muestra que devuelve el Standard and Poor tienen una media de aproximadamente 0 - las alturas de las barras son más grandes cerca de 0. Los rendimientos parecen exhibir asimetría negativa (Es decir, los rendimientos negativos extremos son más comunes que los rendimientos positivos extremas) y tienen una mayor magnitud. No parece haber ningún valores atípicos en los datos.

gráfico de probabilidad normal

Usar una gráfico de probabilidad normal para comparar un conjunto de datos a la distribución normal. El eje vertical de este gráfico muestra los cuantiles del conjunto de datos, y el eje horizontal muestra los cuantiles de la distribución normal. Si un conjunto de datos se distribuye normalmente, entonces el gráfico debe parece ser una línea recta con una pendiente de 1.

Cuantiles se utilizan para dividir un conjunto de datos en grupos de igual tamaño. Un tipo ampliamente utilizado de cuantil es la cuartilla, que (como se discutió anteriormente) divide un conjunto de datos en cuatro grupos iguales, cada uno compuesto de 25 por ciento de los datos. Otra opción popular es la percentil, que divide un conjunto de datos en cien grupos iguales, cada uno que consta de 1 por ciento de los datos.

La siguiente figura muestra un gráfico de probabilidad normal para los retornos diarios a índice bursátil Standard and Poor.

gráfico de probabilidad normal de los rendimientos diarios a la amp; S & P 500 en 2013.
Gráfico de probabilidad normal de los rendimientos diarios a la S&P 500 en 2013.

El gráfico muestra que los rendimientos de la S&P 500 son cerca de ser normal, con desviaciones en las colas de la distribución.

Artículos Relacionados