Cómo suss estadísticas en ggplot2 en r

Después de datos, mapeo y Geoms, el cuarto elemento de una ggplot2 capa en I describe cómo se deben resumir los datos. En ggplot2, que se refieren a este resumen estadístico como una stat.

Una característica muy conveniente de ggplot2 es su gama de funciones de hacer un resumen de los datos en la trama. Esto significa que a menudo no tiene que pre-resumir sus datos. Por ejemplo, la altura de barras de un histograma indica el número de observaciones de algo que tiene en sus datos. El resumen estadístico de esto es para contar las observaciones. Los estadísticos se refieren a este proceso como hurgar en la basura, y la estadística predeterminada para geom_bar () es stat_bin ().

Análogo a la forma en que cada geom tiene un defecto asociado stat, cada stat También tiene un defecto geom.

Por lo tanto, esto plantea la pregunta: ¿Cómo se decide si se debe utilizar una geom o una stat? En teoría, no importa si se elige la geom o el stat primero. En la práctica, sin embargo, a menudo es intuitivo para comenzar con un tipo de trama primero - en otras palabras, especificar una geom. Si a continuación desea agregar otra capa de resumen estadístico, utilice una stat.

Haciendo un histograma con & lt; span class =geom_bar ().”width =” 535 "/>
Haciendo un histograma con geom_bar ().

En esta parcela, que utilizó los mismos datos para crear primero un diagrama de dispersión con geom_point (), y después se ha añadido una línea suave con stat_smooth ().

Aquí algunos ejemplos prácticos de la utilización stat funciones.

StatDescripciónpredeterminado Geom
stat_bin ()Cuenta el número de observaciones en bins.geom_bar ()
stat_smooth ()Crea una línea suave.geom_line ()
stat_sum ()Agrega valores.geom_point ()
stat_identity ()No hay un resumen. Parcelas de datos como se ofrecen.geom_point ()
stat_boxplot ()Resume datos para un gráfico de caja y bigotes.geom_boxplot ()

los datos se van a agrupar

Ya hemos visto cómo utilizar stat_bin () para resumir sus datos en los contenedores, ya que esta es la estadística por defecto de geom_bar (). Esto significa que las siguientes dos líneas de código producen parcelas idénticas:

> Ggplot (temblores, aes (x = profundidad)) + geom_bar (binwidth = 50)> ggplot (temblores, aes (x = profundidad)) + stat_bin (binwidth = 50)

los datos de suavizado

los ggplot2 paquete también hace que sea muy fácil crear líneas de regresión a través de sus datos. Se utiliza el stat_smooth () función para crear este tipo de línea.

Lo interesante de stat_smooth () es que hace uso de la regresión local de forma predeterminada. R tiene varias funciones que pueden hacer esto, pero ggplot2 utiliza el loess() función para la regresión local. Esto significa que si desea crear un modelo de regresión lineal, se tiene que contar stat_smooth () utilizar una función más suave diferente. Esto se hace con el método argumento.

Para ilustrar el uso de una más suave, comienza por crear un diagrama de dispersión de desempleo en el Longley conjunto de datos:

> p <- ggplot(longley, aes(x = Year, y = Employed)) + geom_point()> pag

A continuación, agregar una más suave. Esto es tan simple como añadir stat_smooth () a su línea de código.

> P + stat_smooth ()

Su gráfico debe parecerse a la trama a la izquierda de la imagen de abajo.

A veces, ggplot2 genera mensajes con consejos adicionales e información. Mientras que no se ve advertencia o error, puede ignorar estos mensajes. En este caso, stat_smooth () te dice que el defecto más suave es un método llamado loess (Alisado local). El mensaje también dice que se puede usar métodos alternativos de suavizado.

Por último, utilice stat_smooth () a la medida y trazar un modelo de regresión lineal. Esto se hace añadiendo el argumento method =lm:

> P + stat_smooth (método = “lm”)

Su gráfico debe parecerse a la trama de la derecha.

Adición de líneas de regresión con <span class =stat_smooth () “width =” 535 "/ GT.;
Adición de líneas de regresión con stat_smooth ().

No hacer nada con la identidad

A veces uno no quiere ggplot2 para resumir los datos en la trama. Esto sucede generalmente cuando está ya pre-resume los datos o cuando cada línea de la trama de datos ha de ser trazada por separado. En estos casos, usted quiere decir ggplot2 no hacer nada en absoluto, y la estadística de hacerlo es stat_identity (). Usted probablemente ha notado que stat_identity es la estadística predeterminada de puntos y líneas.

Artículos Relacionados