La construcción de modelos con etapas de regresión

Una de las razones (pero no la única razón) para la ejecución de un análisis de regresión múltiple es llegar a una fórmula de predicción por alguna variable de resultado, basado en un conjunto de variables predictoras disponibles. Lo ideal sería que desea esta fórmula para ser parsimonioso - tener el menor número de variables como sea posible, pero aún así obtener buenas predicciones.

Así que, ¿cómo seleccionar, de entre un gran grupo de variables de predicción, el subconjunto más pequeño necesario para hacer un buen modelo de predicción? Esto se conoce como el problema “modelo de construcción”, que es un tema de investigación activa por los estadísticos teóricos. Ningún método ha surgido como la mejor manera de seleccionar las variables a incluir. Por desgracia, los investigadores suelen utilizar métodos informales que parecen razonables, pero en realidad no son muy buenos, como los siguientes:

  • Hacer una gran regresión múltiple utilizando todos los predictores disponibles, y luego dejar caer los que no salieron significativa. Este enfoque puede pasar por alto algunos predictores importantes debido a la colinealidad.

  • Ejecutar regresiones univariantes sobre cada posible predictor de forma individual, y luego seleccionar sólo aquellos predictores que fueron significativos (o casi significativa) en las pruebas univariantes. Pero a veces una variable predictora verdaderamente importante no se asoció significativamente con el resultado cuando se prueba por sí mismo, pero sólo cuando se han compensado los efectos de alguna otra variable para. Este problema es el inverso del problema importancia de desaparecer - no es tan común, pero puede ocurrir.

Hay otra manera - muchas estadísticas ofrecen paquetes regresión paso a paso, en el que usted proporciona todas las variables de predicción disponibles, y el programa pasa entonces por un proceso similar a lo que un ser humano (con una mente lógica y una gran cantidad de tiempo en sus manos) podrían hacer para identificar el mejor subconjunto de aquellos predictores. El programa trata de manera sistemática adición y eliminación de los diversos predictores del modelo, uno a la vez, mirando a ver los predictores que, cuando se añade a un modelo, mejorar sustancialmente su capacidad predictiva, o cuando se retira del modelo, que sea sustancialmente peor.

regresión paso a paso puede utilizar varios algoritmos diferentes, y los modelos puede ser juzgado a ser mejor o peor por varios criterios diferentes. En general, estos métodos a menudo hacen un trabajo decente de los siguientes:

Video: Regresión Lineal; simple y múltiple

  • Detectar y colocar variables que no están asociados con el resultado, ya sea en la regresión univariante o múltiple

  • Detectar y soltar las variables redundantes (Predictores que están fuertemente asociados con incluso mejores predictores del resultado)

    Video: plantear modelos de programacion lineal EJEMPLO 1 investigacion de operaciones

  • La detección y la inclusión de variables que pueden no haber sido significativa en la regresión univariante, pero que son importantes cuando se ajusta por los efectos de otras variables

La mayoría del software de regresión por pasos también le permite “forzar” ciertas variables en el modelo, si usted sabe (de pruebas fisiológicas) que estas variables son importantes predictores del resultado.

Artículos Relacionados