Cómo crear un modelo de análisis predictivo r clasificación

¿Quieres crear un modelo de análisis predictivo que pueda evaluar el uso de los resultados conocidos. Para hacer eso, dividir el semillas conjunto de datos en dos conjuntos: uno para entrenar el modelo y otro para probar el modelo. Una división 70/30 entre la formación y las pruebas de datos será suficiente. Las siguientes dos líneas de código de calcular y almacenar los tamaños de cada conjunto de datos:

gt; trainSize lt; - ronda (nRow (semillas) * 0,7) gt; testSize lt; - nRow (semillas) - trainSize

Para dar salida a los valores, escriba el nombre de la variable que se utiliza para almacenar el valor y pulse Intro. Aquí está la salida:

gt; trainSize [1] 147gt; testSize [1] 63

Este código determina los tamaños para la formación y las pruebas de datos. Usted no ha&rsquo-t crea realmente los conjuntos aún. Además, usted no&rsquo-t sólo quieren las primeras 147 observaciones para ser el conjunto de entrenamiento y los últimos 63 observaciones para ser el equipo de prueba. Eso crearía un mal modelo, porque el semillas conjunto de datos se ordena en la columna de la etiqueta.

Video: Ejemplo del algoritmo k-means con R

Por lo tanto usted tiene que hacer tanto en el conjunto de entrenamiento y el equipo de prueba representativa de todo el conjunto de datos. Una forma de hacerlo es crear el conjunto de entrenamiento a partir de una selección aleatoria de todo el conjunto de datos.

Además, desea hacer esta prueba reproducible para que pueda aprender del mismo ejemplo. Usted puede hacer que al establecer el conjunto de datos para el generador aleatorio para que tenga la misma &ldquo-aleatoria&rdquo- conjunto de entrenamiento, así:

gt; set.seed (123) gt; training_indices lt; - Muestra (seq_len (nRow (semillas)),
 size = trainSize) gt; juego de trenes lt; - semillas [training_indices,] gt; equipo de prueba lt; - semillas [-training_indices,]

El conjunto de entrenamiento que se obtiene de este código contiene 147 observaciones, junto con un resultado (seedType) De cada observación. Al crear el modelo, se le dirá el algoritmo de qué variable es el resultado. El algoritmo de clasificación utiliza esos resultados para entrenar el modelo examinado las relaciones entre las variables predictoras (cualquiera de los siete atributos) y la etiqueta (seedType).

El equipo de prueba contiene el resto de los datos, es decir, todos los datos no incluidos en el conjunto de entrenamiento. Observe que la configuración de prueba también incluye la etiqueta (seedType). Cuando se utiliza la predecir función (a partir del modelo) con el equipo de prueba, se ignora la etiqueta y sólo utiliza las variables predictoras, siempre y cuando los nombres de columna son los mismos que están en el conjunto de entrenamiento.

los fiesta paquete es uno de varios paquetes en I que crean los árboles de decisión. (Otros paquetes comunes incluyen la toma de árboles rpart, árbol, y randomForest.) El siguiente paso es utilizar el paquete para crear un modelo de árbol de decisiones, utilizando seedType como la variable de destino y todas las otras variables como variables predictoras. El primer paso en este proceso es instalar el paquete y cargarlo en nuestra sesión R.

Video: Construye tu modelo de juego

Tipo en las siguientes líneas de código para instalar y cargar el fiesta paquete:

gt; (install.packages"fiesta") Gt; biblioteca (parte)

Ahora está listo para entrenar el modelo. Escriba la siguiente línea de código:

gt; modelo lt; - ctree (. seedType ~, data = trainset)

Para hacer predicciones con nuevos datos, sólo tiene que utilizar la función on una lista de los siete valores de los atributos. El siguiente código hace lo siguiente:

Video: estadistica

gt; newPrediction lt; - predecir (modelo, lista (área = 11,
 perímetro = 13, compacidad = 0,855, longitud = 5,
 width = 2,8, la asimetría = 6,5, longitud2 = 5),
 = intervalo"predecir", Nivel = 0,95)

Este es el código y salida del nuevo valor de predicción.

gt; newPrediction [1] 3levels: 1 2 3

La predicción era semilla de tipo 3, que no es sorprendente debido a que los valores fueron escogidos deliberadamente que estaban cerca de observación # 165.