Cómo realizar un seguimiento de las correlaciones de datos en r

Los estadísticos encanta cuando se puede vincular una variable de datos a otro. R puede ayudar a encontrar esta relación. La luz del sol, por ejemplo, va en detrimento de las faldas: Cuanto mayor sea el sol brilla, las faldas más cortas convertirse. Así, el número de horas de sol se correlaciona con la longitud de la falda.

Video: Diagrama de Dispersión y correlación en lenguaje R

Obviamente, no hay realmente una relación causal directa aquí - que no encontrará en faldas cortas durante el verano en las regiones polares. Sin embargo, en muchos casos, la búsqueda de relaciones causales se inicia con el examen de las correlaciones.

Para ilustrar esto, echar un vistazo a la famosa iris conjunto de datos en R. Una de las mayores estadísticos de todos los tiempos, Sir Ronald Fisher, utiliza este conjunto de datos para ilustrar cómo las mediciones múltiples puede usarse para discriminar entre diferentes especies. Este conjunto de datos contiene cinco variables, como se puede ver mediante el uso de la nombres () función:

gt; nombres (iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length"[4] "Petal.Width" "Especies"

Contiene mediciones de las características de flores para tres especies de iris y de 50 flores de cada especie. Dos variables describen los sépalos (Sepal.Length y Sepal.Width), Otras dos variables describen los pétalos (Petal.Length y Petal.Width), Y la última variable (Especies) Es un factor que indica de qué especie viene la flor.

A pesar de que las apariencias engañan, desea calcular visualmente sus datos antes de excavar más profundamente en ella. Para trazar una cuadrícula de diagramas de dispersión para todas las combinaciones de dos variables en el conjunto de datos, puede simplemente usar el trama() funcionar en su trama de datos, de esta manera:

gt; plot (iris [-5])

Debido a que los diagramas de dispersión son útiles sólo para las variables continuas, se puede eliminar todas las variables que no son continuas. Demasiadas variables en la matriz de trama hace que las parcelas difíciles de ver. En el código anterior, se le cae la variable Especies, porque eso es un factor.

Video: correlación con R y R commander

Se puede ver el resultado de esta simple línea de código. Los nombres de las variables aparecen en los cuadrados en la diagonal, lo que indica que las variables se representa a lo largo de la x-eje y la y-eje. Por ejemplo, la segunda trama en la tercera fila tiene Sepal.Width sobre el x-eje y Petal.Length sobre el y-eje.

Artículos Relacionados