Cómo crear subgrupos de datos en r

Video: CREACION BASES DE DATOS CON R

los cortar() función en R crea contenedores de igual tamaño (por defecto) en sus datos y luego clasifica cada elemento en su bin apropiado.

Si esto suena como un bocado, no se preocupe. Unos pocos ejemplos deberían hacer esto vienen a la vida.

Modo de empleo corte para crear un número fijo de subgrupos

Para ilustrar el uso de cortar(), echar un vistazo a la base de datos integrada state.x77, una matriz con varias columnas y una fila para cada estado de los Estados Unidos:

Video: Gráfica de Control de Variables por subgrupos(x-R)

gt; cabeza (state.x77) Población Ingresos Analfabetismo Vida Exp asesinato SA Grad de Frost AreaAlabama 3615 36.242,1 69,05 15,1 41,3 20 50708Alaska 365 63.151,5 69,31 11,3 66,7 152 566432Arizona 2212 45.301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33.781,9 70,66 10,1 39,9 65 51945California 21.198 51.141,1 71,71 10,3 62,6 20 156361Colorado 2541 48.840,7 72,06 6,8 63,9 166 103 766

¿Quieres trabajar con la columna llamada escarcha. Para extraer esta columna, intente lo siguiente:

gt; escarcha lt; - state.x77 [, "escarcha"] Gt; cabeza (heladas, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Ahora tiene un nuevo objeto, escarcha, un vector numérico llamado. ahora usa cortar() para crear tres contenedores en los datos:

gt; corte (heladas, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125 188] (125 188] (62.6,125] .... [45] (125 188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (125,188] (125,188] niveles: [-0.188,62.6] (62,6 , 125] (125 188]

El resultado es un factor con tres niveles. Los nombres de los niveles parecen un poco complicado, pero te dicen en notación matemática de conjuntos cuáles son los límites de sus contenedores son. Por ejemplo, el primer bin contiene aquellos estados que han escarcha entre -0.188 y 62,8 días.

En realidad, por supuesto, ninguno de los estados tendrá las heladas en los días negativos - R está siendo matemáticamente conservadora y añade un poco de relleno.

Tenga en cuenta el argumento include.lowest = TRUE a cortar(). El valor por defecto de este argumento es include.lowest = FALSE, que a veces puede causar R ignorar el valor más bajo en los datos.

Cómo añadir etiquetas a cortar

Los nombres de nivel no son muy fácil de usar, por lo especifican algunos nombres con los mejores etiquetas argumento:

gt; corte (heladas, 3, include.lowest = TRUE, etiquetas = C ("Bajo", "Medicina", "Alto")) [1] Bajo Alto Bajo Medio Bajo Alto Alto Medio Bajo Bajo Bajo .... [45] Alta Media Baja Media Alta HighLevels: Baja Media Alta

Ahora usted tiene un factor que clasifica los estados en baja, media y alta, en función del número de días de heladas que reciben.

Cómo utilizar la tabla para contar el número de observaciones

Una pieza interesante de análisis consiste en contar el número de estados se encuentran en cada soporte. Puede hacer esto con la mesa() función, que simplemente cuenta el número de observaciones en cada nivel de su factor.

gt; x lt; - corte (Frost, 3, include.lowest = TRUE, etiquetas = c ("Bajo", "Medicina", "Alto")) Gt; mesa (x) XLow Med High11 19 20
Artículos Relacionados