Cómo analizar los datos en tablas con R

Puede utilizar R de prop.test () función de los datos en matrices y tablas. por prop.test (), estas tablas deben tener dos columnas con el número de cuentas de los dos resultados posibles.

Como prueba de contingencia de las tablas

Alternativamente, se puede utilizar el chisq.test () función para analizar tablas con una chi-cuadrado (χ²) Prueba de contingencia. Para hacer esto en la matriz con los datos del cinturón de seguridad, sólo tiene que hacer lo siguiente:

gt; chisq.test (seatbelt.table)

Esto devuelve el siguiente resultado:

Video: Instalar e importar una base de datos de excel a r-project

 prueba de Chi-cuadrado de Pearson con Yates continuidad correctiondata: survivorsX cuadrado = 24.3328, df = 1, p-valor = 8.105e-07

Los valores de la estadística (X-cuadrado), Los grados de libertad, y el valor de p son exactamente lo mismo que con el prop.test () función. Eso es de esperarse, porque - en este caso, al menos - ambas pruebas son equivalentes.

Cómo probar las tablas con más de dos columnas

A diferencia de la prop.test () función, el chisq.test () función puede hacer frente a las tablas con más de dos columnas e incluso con más de dos dimensiones. Para ilustrar esto, vamos a echar un vistazo a la tabla HairEyeColor. Se puede ver su estructura con el siguiente código:

gt; str (HairEyeColor) Tabla [1: 4, 1: 4, 1: 2] 32 53 10 3 11 50 10 30 10 25 ...- attr (*, "dimnames") = Lista de 3 .. $ pelo: CHR [1: 4] "Negro" "marrón" "rojo" "Rubio".. $ ojos: CHR [1: 4] "marrón" "Azul" "Color avellana" "Verde".. $ Sexo: CHR [1: 2] "Masculino" "Hembra"

Por lo tanto, la tabla HairEyeColor tiene tres dimensiones: una para el color del pelo, uno para el color de ojos, y uno para el sexo. El cuadro representa la distribución de estas tres características entre 592 estudiantes.

Los nombres de las dimensiones de una tabla se almacenan en un atributo llamado dimnames. Como se puede ver en la salida de la str () función, esto es en realidad una lista con los nombres de las filas / columnas en cada dimensión. Si esta lista es una lista con nombre, los nombres se utilizan para etiquetar las dimensiones. Se puede utilizar el dimnames () función para extraer o cambiar los nombres de dimensión.

Para comprobar si el color del cabello y color de los ojos están relacionados, puede contraer la mesa durante las dos primeras dimensiones utilizando el margin.table () funcionar para resumir el color del pelo y de los ojos para ambos sexos. Esta función suma los valores en algunas dimensiones para darle una tabla resumen con menos dimensiones. Para eso, es necesario especificar qué márgenes que desea mantener.

Video: 11.1 Agrupamiento de datos con R

Por lo tanto, para obtener la tabla de cabello y color de los ojos, se utiliza la siguiente:

gt; HairEyeMargin lt; - margin.table (HairEyeColor, el margen = c (1,2)) gt; HairEyeMarginEyeHair Marrón: Azul Greenblack 68 20 15 5Brown 119 84 54 29Red 26 17 14 14Blond 7 94 10 16

Ahora simplemente puede comprobar si el cabello y color de los ojos están relacionadas por probarlo en esta tabla:

Video: R project (español) - Importar archivos (excel, csv, txt...)

gt; chisq.test testdata (HairEyeMargin) de Pearson Chi-cuadrado: HairEyeMarginX cuadrado = 138,2898, df = 9, p-valor lt; 2.2e-16

Como era de esperar, el resultado de esta prueba indica que algunas combinaciones de cabello y color de los ojos son más comunes que otros. No es una gran sorpresa, pero se puede utilizar estas técnicas en otras cuestiones de investigación y más interesantes.