Gráfica de análisis de datos exploratorio (eda) técnicas

EDA se basa en gran medida en las técnicas gráficas. Puede utilizar técnicas gráficas para identificar las propiedades más importantes de un conjunto de datos. Estas son algunas de las técnicas gráficas más ampliamente utilizados:

  • Los diagramas de caja

  • histogramas

    Video: umh1263-2012-13-Análisis Exploratorio de Datos

  • gráficos de probabilidad normal

  • Gráfico de dispersión

    Video: Análisis exploratorio

Los diagramas de caja

Se utiliza diagramas de caja para mostrar algunas de las características más importantes de un conjunto de datos, tales como las siguientes:

  • Valor mínimo

  • Valor máximo

  • cuartiles

Los cuartiles separar un conjunto de datos en cuatro secciones iguales. El primer cuartil (Q1) Es un valor tal que lo siguiente es cierto:

Video: Análisis exploratorio datos cualitativos

25 por ciento de las observaciones en un conjunto de datos son menores que el primer cuartil.

75 por ciento de las observaciones son mayores que el primer cuartil.

El segundo cuartil (Q2) Es un valor tal que

50 por ciento de las observaciones en un conjunto de datos son menos que el segundo cuartil.

50 por ciento de las observaciones son mayores que el segundo cuartil.

El segundo cuartil también se conoce como la mediana.

El tercer cuartil (Q3) Es un valor tal que

75 por ciento de las observaciones en un conjunto de datos son menores que el tercer cuartil.

25 por ciento de las observaciones son mayores que el tercer cuartil.

También puede utilizar diagramas de caja para identificar valores atípicos. Estos son los valores que son sustancialmente diferente del resto del conjunto de datos. Los valores extremos pueden causar problemas para las pruebas estadísticas tradicionales, por lo que es importante identificarlos antes de realizar cualquier tipo de análisis estadístico.

histogramas

Se utiliza histogramas para obtener una perspectiva de la distribución de probabilidad que sigue a un conjunto de datos. Con un histograma, el conjunto de datos se organiza en una serie de valores o rangos de valores individuales, cada uno representado por una barra vertical. La altura de la barra muestra la frecuencia se produce un valor o rango de valores. Con un histograma, es fácil ver cómo se distribuyen los datos.

Gráfico de dispersión

Un diagrama de dispersión es una serie de puntos que muestran cómo dos variables están relacionadas entre sí. Una dispersión aleatoria de puntos indica que las dos variables no están relacionadas, o que la relación entre ellos es muy débil. Si los puntos se parecen mucho a una línea recta, esto indica que la relación entre las dos variables es de aproximadamente lineal.

Dos variables están relacionadas linealmente si pueden describirse con la ecuación Y = mX + segundo.

x es la variable independiente, y Y es la variable dependiente. metro es el cuesta abajo, que representa el cambio en Y debido a un cambio dado en x. segundo es el interceptar, que muestra el valor de Y cuando x es igual a cero.

La figura muestra un diagrama de dispersión entre dos variables en las que la relación parece ser lineal.

gráfico de dispersión de una relación lineal.
gráfico de dispersión de una relación lineal.

muy cerca de los puntos de la nube de puntos forman una línea recta. Se inclina un poco hacia la izquierda y se inclina un poco hacia la derecha, pero es más o menos recta. Esto demuestra que la relación es lineal, con una pendiente positiva.

La siguiente figura muestra un gráfico de dispersión entre dos variables en la que Y parece estar aumentando más rápidamente que X.

gráfico de dispersión de una relación no lineal.
gráfico de dispersión de una relación no lineal.

Ver la curva? Esta relación no es claramente lineal. De hecho, es una relación cuadrática. Una relación cuadrática toma la forma Y = hacha2 + segundoX + do.

La siguiente figura muestra un gráfico de dispersión en la que no parece haber ninguna relación entre x y Y.

Diagrama de dispersión con ninguna relación entre las variables y lt; i & gt; X & lt; / i & gt; y & lt; i & gt; Y. & lt; / i & gt;”width =” 535 Diagrama de dispersión con ninguna relación entre las variables x y Y.

Las variables en el gráfico de dispersión se muestran en la no relacionado o independiente- se puede ver esto por la falta de un patrón en los datos.

Además de mostrar la relación entre dos variables, un gráfico de dispersión también puede mostrar la presencia de valores atípicos. La siguiente figura muestra un conjunto de datos con una observación que es sustancialmente diferente de las otras observaciones.

Diagrama de dispersión con un valor atípico.
Diagrama de dispersión con un valor atípico.

El punto de outlier necesita ser investigado adicionalmente para determinar si es el resultado de un error u otros problemas. Es posible que tendrá que ser retirado de los datos del valor atípico.

gráficos de probabilidad normal

gráficos de probabilidad normal se utilizan para ver cómo de cerca los elementos de un conjunto de datos siguen la distribución normal. El supuesto de normalidad es común en muchas disciplinas. Por ejemplo, a menudo se asume en finanzas y economía que los rendimientos de las acciones se distribuyen normalmente. El supuesto de normalidad es muy conveniente, y muchas pruebas estadísticas se basan en este supuesto.

La aplicación de pruebas estadísticas que asumen la normalidad a una no normal conjunto de datos daría resultados muy cuestionables. Por lo tanto, es importante determinar si los datos se distribuyen normalmente antes de realizar cualquiera de estas pruebas estadísticas.

">
Artículos Relacionados