Gráfica de análisis de datos exploratorio (eda) técnicas
EDA se basa en gran medida en las técnicas gráficas. Puede utilizar técnicas gráficas para identificar las propiedades más importantes de un conjunto de datos. Estas son algunas de las técnicas gráficas más ampliamente utilizados:
Los diagramas de caja
histogramas
Video: umh1263-2012-13-Análisis Exploratorio de Datos
gráficos de probabilidad normal
Gráfico de dispersión
Video: Análisis exploratorio
Los diagramas de caja
Se utiliza diagramas de caja para mostrar algunas de las características más importantes de un conjunto de datos, tales como las siguientes:
Valor mínimo
Valor máximo
cuartiles
Los cuartiles separar un conjunto de datos en cuatro secciones iguales. El primer cuartil (Q1) Es un valor tal que lo siguiente es cierto:
Video: Análisis exploratorio datos cualitativos
25 por ciento de las observaciones en un conjunto de datos son menores que el primer cuartil.
75 por ciento de las observaciones son mayores que el primer cuartil.
El segundo cuartil (Q2) Es un valor tal que
50 por ciento de las observaciones en un conjunto de datos son menos que el segundo cuartil.
50 por ciento de las observaciones son mayores que el segundo cuartil.
El segundo cuartil también se conoce como la mediana.
El tercer cuartil (Q3) Es un valor tal que
75 por ciento de las observaciones en un conjunto de datos son menores que el tercer cuartil.
25 por ciento de las observaciones son mayores que el tercer cuartil.
También puede utilizar diagramas de caja para identificar valores atípicos. Estos son los valores que son sustancialmente diferente del resto del conjunto de datos. Los valores extremos pueden causar problemas para las pruebas estadísticas tradicionales, por lo que es importante identificarlos antes de realizar cualquier tipo de análisis estadístico.
histogramas
Se utiliza histogramas para obtener una perspectiva de la distribución de probabilidad que sigue a un conjunto de datos. Con un histograma, el conjunto de datos se organiza en una serie de valores o rangos de valores individuales, cada uno representado por una barra vertical. La altura de la barra muestra la frecuencia se produce un valor o rango de valores. Con un histograma, es fácil ver cómo se distribuyen los datos.
Gráfico de dispersión
Un diagrama de dispersión es una serie de puntos que muestran cómo dos variables están relacionadas entre sí. Una dispersión aleatoria de puntos indica que las dos variables no están relacionadas, o que la relación entre ellos es muy débil. Si los puntos se parecen mucho a una línea recta, esto indica que la relación entre las dos variables es de aproximadamente lineal.
Dos variables están relacionadas linealmente si pueden describirse con la ecuación Y = mX + segundo.
x es la variable independiente, y Y es la variable dependiente. metro es el cuesta abajo, que representa el cambio en Y debido a un cambio dado en x. segundo es el interceptar, que muestra el valor de Y cuando x es igual a cero.
La figura muestra un diagrama de dispersión entre dos variables en las que la relación parece ser lineal.
muy cerca de los puntos de la nube de puntos forman una línea recta. Se inclina un poco hacia la izquierda y se inclina un poco hacia la derecha, pero es más o menos recta. Esto demuestra que la relación es lineal, con una pendiente positiva.
La siguiente figura muestra un gráfico de dispersión entre dos variables en la que Y parece estar aumentando más rápidamente que X.
Ver la curva? Esta relación no es claramente lineal. De hecho, es una relación cuadrática. Una relación cuadrática toma la forma Y = hacha2 + segundoX + do.
La siguiente figura muestra un gráfico de dispersión en la que no parece haber ninguna relación entre x y Y.
Las variables en el gráfico de dispersión se muestran en la no relacionado o independiente- se puede ver esto por la falta de un patrón en los datos.
Además de mostrar la relación entre dos variables, un gráfico de dispersión también puede mostrar la presencia de valores atípicos. La siguiente figura muestra un conjunto de datos con una observación que es sustancialmente diferente de las otras observaciones.
El punto de outlier necesita ser investigado adicionalmente para determinar si es el resultado de un error u otros problemas. Es posible que tendrá que ser retirado de los datos del valor atípico.
gráficos de probabilidad normal
gráficos de probabilidad normal se utilizan para ver cómo de cerca los elementos de un conjunto de datos siguen la distribución normal. El supuesto de normalidad es común en muchas disciplinas. Por ejemplo, a menudo se asume en finanzas y economía que los rendimientos de las acciones se distribuyen normalmente. El supuesto de normalidad es muy conveniente, y muchas pruebas estadísticas se basan en este supuesto.
La aplicación de pruebas estadísticas que asumen la normalidad a una no normal conjunto de datos daría resultados muy cuestionables. Por lo tanto, es importante determinar si los datos se distribuyen normalmente antes de realizar cualquiera de estas pruebas estadísticas.
">