Cómo tomar muestras de datos en R

Video: Conectando R con MySQL

Los estadísticos a menudo tienen que tomar muestras de datos y luego calcular las estadísticas. Tomando una muestra es fácil con R debido a que una muestra es realmente nada más que un subconjunto de datos. Para ello, se hace uso de muestra(), que tiene un vector como insumo-producto y luego te dicen que el número de muestras a extraer de esa lista.

Di que quieres simular lanzamientos de un dado, y desea obtener diez resultados. Debido a que el resultado de una sola tirada de un dado es un número entre uno y seis, el código es el siguiente:

gt; muestra (1: 6, 10, sustituir = TRUE) [1] 2 2 5 3 5 3 5 6 3 5

usted le dice muestra() para volver diez valores, cada uno en el intervalo 1: 6. Debido a que cada rollo de la matriz es independiente de cualquier otro rollo de la matriz, que estés de muestreo con reemplazo. Esto significa que se toma una muestra de la lista y restablecer la lista a su estado original (en otras palabras, se pone el elemento que has dibujado de nuevo en la lista).

Para ello, se agrega el argumento replace = VERDADERO, como en el ejemplo.

Debido a que el valor de retorno de la muestra() la función es un número determinado aleatoriamente, si intenta esta función repetidamente, obtendrá resultados diferentes cada vez. Este es el comportamiento correcto en la mayoría de los casos, pero a veces es posible que desee obtener resultados repetibles cada vez que se ejecuta la función.

Por lo general, esto ocurrirá sólo cuando desarrollen y probar su código, o si usted quiere estar seguro de que otra persona pueda probar el código y obtener los mismos valores que usted hizo. En este caso, se acostumbra a especificar una llamada valor de la semilla.

Si proporciona un valor de la semilla, la secuencia de números aleatorios se restablecerá a un estado conocido. Esto se debe a R no crea números verdaderamente aleatorios, pero sólo números pseudo-aleatorios. Una secuencia pseudo-aleatoria es un conjunto de números que, para todos los propósitos prácticos, parecen ser al azar pero fueron generados por un algoritmo. Cuando se establece una semilla de partida de un proceso de pseudo-aleatoria, R siempre devuelve la misma secuencia pseudo-aleatoria.

Pero si no se establece la semilla, R se basa en el estado actual del generador de números aleatorios (RNG). En el arranque R puede establecer una semilla aleatoria para inicializar el generador de números aleatorios, pero cada vez que la llame, R se inicia desde el siguiente valor de la secuencia de números aleatorios. Puede leer la Ayuda para ?RNG para obtener más detalles.

En R, se utiliza el set.seed () función para especificar el valor inicial de la semilla. El argumento para set.seed () es cualquier valor entero.

Video: Extraer Una Muestra Aleatoria Simple Con Excel 2007.swf

gt; set.seed (1) gt; muestra (1: 6, 10, sustituir = TRUE) [1] 2 3 4 6 2 6 6 4 4 1

Si dibuja otra muestra, sin establecer una semilla, se obtiene un conjunto diferente de resultados, como era de esperar:

gt; muestra (1: 6, 10, sustituir = TRUE) [1] 2 2 5 3 5 3 5 6 3 5

Ahora, para demostrar que set.seed () En realidad no reinicia el RNG, intentarlo de nuevo. Pero esta vez, establecer la semilla, una vez más:

gt; set.seed (1) gt; muestra (1: 6, 10, sustituir = TRUE) [1] 2 3 4 6 2 6 6 4 4 1

Se obtiene exactamente los mismos resultados que la primera vez que se usó set.seed (1).

Puedes usar muestra() tomar muestras de la trama de datos iris. En este caso, es posible que desee utilizar el argumento replace = FALSO. Debido a que este es el valor por defecto de la reemplazar argumento, no es necesario escribir explícitamente:

gt; set.seed (123) gt; índice lt; - muestra (1: nrow (iris), 5) gt; índice [1] 44 119 62 133 142gt; iris [índice,] Sepal.Length Sepal.Width Petal.Length Petal.Width Species44 5,0 3,5 1,6 0,6 7,7 2,6 6,9 setosa119 2,3 virginica62 5,9 3,0 4,2 1,5 6,4 2,8 5,6 versicolor133 2,2 virginica142 6,9 3,1 5,1 2,3 virginica