¿Cómo explicar los resultados de los análisis predictivos de regresión r

Video: regresion lineal multiple usando analisis de datos de EXCEL

Una vez que se crea un modelo de regresión R para análisis predictivo, que desea ser capaz de explicar los resultados del análisis. Para ver algo de información útil sobre el modelo, el tipo en el siguiente código:

gt; Resumen (modelo)

La salida proporciona información que se puede explorar si desea modificar su modelo más. Por ahora, vamos a dejar el modelo tal como es. Aquí están las dos últimas líneas de la salida:

Video: Modelo de Regresión Lineal Simple/Interpretación de los Coeficientes

Multiple R-cuadrado: 0,8741, ajustado R-cuadrado: 0.8633F-estadística: 80.82 en 22 y 256 DF, p-valor: lt; 2.2e-16

Un par de puntos de datos se destacan aquí:

  • los Múltiple R cuadrado valor que indica qué tan bien la línea de regresión a los datos (bondad de ajuste). Un valor de 1 significa que es un ajuste perfecto. por lo que una r cuadrado valor de 0,874 es buena, se dice que el 87,4 por ciento de la variabilidad en mpg se explica por el modelo.

  • los p-valor te dice lo importante que las variables predictoras afectan a la variable de respuesta. UN p-valor de menos de (típicamente) 0,05 significa que puede rechazar la hipótesis nula de que las variables predictoras en conjunto tienen ningún efecto sobre la variable de respuesta (mpg). los p-valor de 2.2e-16 (es decir, 2,2 con 16 ceros en frente de ella) es mucho menor que 0,05, por lo que los predictores tener un efecto sobre la respuesta.

Con el modelo creado, puede hacer predicciones en contra de ella con los datos de prueba ha particionado del conjunto de datos completo. Para utilizar este modelo para predecir el para cada fila del conjunto de prueba, se emite el siguiente comando:

gt; predicciones lt; - predecir (modelo, testset,
= intervalo"predecir", Nivel = 0,95)

El código y la salida de los primeros seis predicciones:

gt; cabeza (predicciones) LWR ajuste upr2 10,530223 22,449644 18,16543 16,48993 12,204615 24,126255 18,39992 12,402524 24,397326 12,09295 6,023341 18,162577 11,37966 5,186428 17,572898 11,66368 5,527497 17,79985

La salida es una matriz que muestra los valores previstos en el ajuste columna y el intervalo de predicción en el LWR y UPR - columnas con un nivel de confianza del 95 por ciento. Cuanto mayor sea el nivel de confianza, mayor será el rango, y viceversa.

El valor predicho está en el medio de la gama- por lo que cambiar el nivel de confianza no cambia el valor predicho. La primera columna es el número de fila del conjunto de datos completo.

Para ver el lado valores reales y predichos por lado para que pueda compararlas fácilmente, puede escribir en las siguientes líneas de código:

gt; comparación lt; - cbind (testset $ mpg, predicciones [, 1]) gt; COLNAMES (comparación) lt; - c ("real", "predicho")

La primera línea crea una matriz de dos columnas con los valores reales y predichos. La segunda línea cambia los nombres de columna a real y predicho. Tipo en la primera línea de código para obtener la salida de los primeros seis líneas de comparación, como sigue:

gt; cabeza (comparación) predicted2 real 15 16.489934 18.165435 16 17 18.399926 12.092957 15 14 11,379668 14 11,66368

También queremos ver un resumen de las dos columnas para comparar sus medios. El código y la salida del resumen:

gt; Resumen (comparación) actualpredictedMin. : 10.00 min. : 8.8491st Qu.:16.00 primera Qu.:17.070Median: 21,50 Mediana: 22.912Mean: 22.79 Media: 23.0483rd Qu.:28.00 tercera Qu.:29.519Max. : 44.30 Max. : 37.643

A continuación se utiliza el error medio por ciento absoluta (MAPE), Para medir la exactitud de nuestro modelo de regresión. La fórmula para el error absoluto medio por ciento es

(Σ (| Y-Y’| / | Y |) / N) * 100

donde Y es la puntuación real, Y’es la puntuación predicha, y N es el número de puntuaciones predichas. Después de conectar los valores en la fórmula, se obtiene un error de sólo 10,94 por ciento. Aquí está el código y la salida de la consola R:

gt; MAPE lt; - (sum (abs (comparación [, 1] -comparación [, 2]) / abs (comparación [, 1])) / nrow (comparación)) * 100 TB; MAPE [1] 10.93689

El siguiente código le permite ver los resultados y errores en una vista de tabla:

Video: Análisis de regresión lineal simple con Infostat

gt; mapeTable lt; - cbind (comparación, abs (comparación [, 1] - comparación [, 2]) / comparación [, 1] * 100) gt; COLNAMES (mapeTable) [3] lt; - "porcentaje de error absoluto"gt; cabeza (mapeTable) real predicho absoluta ciento error2 15 16.48993 9.9328894 16 18.16543 13.5339525 17 18.39992 8.2348406 15 12.09295 19.3803097 14 11.37966 18.7167088 14 11,66368 16,688031

Aquí está el código que le permite ver el porcentaje de error de nuevo:

gt; sum (mapeTable [, 3]) / nrow (comparación)
[1] 10.93689
Artículos Relacionados