Cómo crear un modelo de análisis predictivo de regresión con R

Video: Tutorial Regresión Lineal Simple R- Project

¿Quieres crear un modelo de análisis predictivo que se puede evaluar mediante el uso de los resultados conocidos. Para hacer eso, vamos a dividir nuestro conjunto de datos en dos conjuntos: uno para entrenar el modelo y otro para probar el modelo. Una división 70/30 entre la formación y las pruebas de datos será suficiente. Las siguientes dos líneas de código de calcular y almacenar los tamaños de cada conjunto:

gt; trainSize lt; - ronda (nRow (autos) * 0,7) gt; testSize lt; - nRow (autos) - trainSize

Para dar salida a los valores, escriba el nombre de la variable que se utiliza para almacenar el valor y pulse Intro. Aquí está la salida:

gt; trainSize [1] 279gt; testSize [1] 119

Este código determina el tamaño de los conjuntos de datos que tiene la intención de hacer nuestro entrenamiento y prueba de datos. Todavía no se ha creado en realidad esos conjuntos. Además, usted no quiere simplemente para llamar a los primeros 279 observaciones del conjunto de entrenamiento y llamar a los últimos 119 observaciones del equipo de prueba. Eso crearía un mal modelo debido a que el conjunto de datos aparece ordenó. Específicamente, la modelo del año la columna se ordena de menor a mayor.

Del examen de los datos, se puede ver que la mayoría de los más pesados, de ocho cilindros, de mayor cilindrada, automóviles mayor caballos de fuerza residen en la parte superior del conjunto de datos. A partir de esta observación, sin tener que ejecutar cualquier algoritmo a los datos, ya se puede decir que (en general, para este conjunto de datos) los coches más viejos en comparación con los autos más nuevos de la siguiente manera:

son más pesados
Tiene ocho cilindros
Tienen mayor cilindrada
Tienen mayor potencia

Video: Regresión Lineal con excel

Bien, obviamente, mucha gente sabe algo acerca de los automóviles, por lo que una conjetura en cuanto a lo que son las correlaciones no será demasiado rebuscado después de ver los datos. Una persona con mucho conocimiento del automóvil puede ya haber sabido esto sin ni siquiera mirar los datos.

Esto es sólo un ejemplo sencillo de un dominio (coches) que muchas personas pueden relacionarse. Si se trataba de datos sobre el cáncer, sin embargo, la mayoría de la gente no entiende inmediatamente lo que significa cada atributo.

Video: REGRESIÓN CON VARIABLE CUALITATIVA

Aquí es donde un experto de dominio y un modelador de datos son vitales para el proceso de modelado. Los expertos del dominio pueden tener el mejor conocimiento de qué atributos pueden ser los más (o menos) importante - y cómo correlacionar los atributos entre sí.

Pueden sugerir al modelador de datos qué variables para experimentar. Se puede dar a los pesos más grandes a los atributos más importantes y / o pesos más pequeños a los atributos de menor importancia (o eliminarlos por completo).

Así que hay que hacer un conjunto de datos de entrenamiento y un conjunto de datos de prueba que son verdaderamente representativas de todo el conjunto. Una forma de hacerlo es crear el conjunto de entrenamiento a partir de una selección aleatoria de todo el conjunto de datos. Además, desea hacer esta prueba reproducible para que pueda aprender del mismo ejemplo.

De este modo establecer la semilla para el generador aleatorio por lo que tendremos el mismo conjunto de entrenamiento “al azar”. El siguiente código hace que la tarea:

gt; set.seed (123) gt; training_indices lt; - Muestra (seq_len (nRow (autos)),
 size = trainSize) gt; juego de trenes lt; - autos [training_indices,] gt; equipo de prueba lt; - autos [-training_indices,]

El conjunto de entrenamiento contiene 279 observaciones, junto con el resultado (mpg) De cada observación. El algoritmo de regresión utiliza el resultado para entrenar el modelo examinado las relaciones entre las variables predictoras (cualquiera de los siete atributos) y la variable de respuesta (mpg).

El equipo de prueba contiene el resto de los datos (es decir, la parte no incluida en el conjunto de entrenamiento). Usted debe notar que el aparato de prueba incluye también la respuesta (mpg) variable.

Cuando se utiliza la predecir función (a partir del modelo) con el equipo de prueba, se ignora la variable de respuesta y sólo utiliza las variables predictoras, siempre y cuando los nombres de columna son los mismos que aquellos en el conjunto de entrenamiento.

Para crear un modelo de regresión lineal que utiliza el mpg atribuir como la variable de respuesta y todas las demás variables como variables de predicción, el tipo en la siguiente línea de código:

gt; modelo lt; - lm (. fórmula = trainset $ mpg ~, data = trainset)