Cómo probar el modelo de análisis predictivo

Para poder probar el modelo de análisis predictivo que construyó, es necesario dividir el conjunto de datos en dos conjuntos: los conjuntos de datos de entrenamiento y prueba. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una buena representación de la población real.

  • Datos similares se deben utilizar tanto para el entrenamiento y prueba de datos.

  • Normalmente la formación de datos es significativamente mayor que el conjunto de datos de prueba.

    Video: Testeo de componentes electronicos, testing of electronic components

  • El uso de los datos de prueba le ayuda a evitar errores tales como sobreajuste.

  • El modelo entrenado se ejecuta en los datos de prueba para ver qué tan bien el modelo va a realizar.

Algunos científicos de datos prefieren tener un tercer conjunto de datos que tiene características similares a las de los dos primeros: una validación de datos. La idea es que si se utiliza de forma activa los datos de prueba para refinar el modelo, se debe utilizar un aparte (tercer) conjunto para comprobar la exactitud del modelo.

Tener un conjunto de datos de validación, que no fue utilizada como parte del proceso de desarrollo de su modelo, ayuda a asegurar una valoración neutra de la precisión y eficacia del modelo.

Si ha creado varios modelos utilizando varios algoritmos, la muestra de validación también puede ayudar a evaluar qué modelo funciona mejor.

Asegúrese de que usted compruebe su trabajo desarrollar y probar el modelo. En particular, ser escépticos si el rendimiento o la exactitud del modelo parece demasiado bueno para ser verdad. Los errores pueden ocurrir cuando menos se lo espera. Incorrectamente el cálculo de fechas para los datos de series de tiempo, por ejemplo, puede dar lugar a resultados erróneos.

Cómo utilizar la validación cruzada

Validación cruzada es una técnica popular que puede utilizar para evaluar y validar el modelo. El mismo principio de la utilización de conjuntos de datos separados para las pruebas y la formación se aplica aquí: Los datos de entrenamiento se utiliza para construir el modelo- el modelo se ejecuta en el conjunto de pruebas para predecir los datos no ha visto antes, que es una forma de evaluar su exactitud .

En la validación cruzada, los datos históricos se divide en un número X de subconjuntos. Cada vez que se elige un subconjunto que se utiliza como datos de prueba, el resto de los subconjuntos se utilizan como datos de entrenamiento. A continuación, en la siguiente ejecución, el ex equipo de prueba se convierte en uno de los conjuntos de entrenamiento y uno de los primeros conjuntos de entrenamiento se convierte en el equipo de prueba.

El proceso continúa hasta que cada subconjunto de que X número de conjuntos se ha utilizado como un conjunto de prueba.

Video: Como Probar Un Estereo Antes de Instalarlo

Por ejemplo, imagine que tiene un conjunto de datos que se ha dividido en 5 series numeradas del 1 al 5. En la primera carrera, usa SET 1 como el conjunto de prueba y utilizar conjuntos de 2, 3, 4 y 5 como el conjunto de entrenamiento. Luego, en la segunda pasada, que el set 2 como el conjunto de pruebas y juegos 1, 3, 4, y 5 como conjunto de entrenamiento.

Se continúa este proceso hasta que cada subconjunto de los 5 juegos se ha utilizado como un conjunto de prueba.

La validación cruzada permite el uso de todos los puntos de datos en los datos históricos para el entrenamiento y prueba. Esta técnica es más eficaz que simplemente dividir los datos en dos conjuntos históricos, utilizando el conjunto con la mayoría de los datos de entrenamiento, utilizando el otro conjunto de pruebas, y dejar las cosas así.

Cuando validación cruzada de los datos, se está protegiendo a sí mismo contra escoger al azar los datos de prueba que es demasiado fácil de predecir - lo que le daría la falsa impresión de que su modelo es exacta. O, si quieres pasar a recoger datos de prueba que es muy difícil de predecir, es posible concluir falsamente que su modelo no está funcionando como se esperaba.

Video: Como Medir con tester sistema AC alimentacion CDI moto china

La validación cruzada es ampliamente utilizado no sólo para validar la precisión de los modelos, sino también para comparar el rendimiento de varios modelos.

¿Cómo equilibrar el sesgo y la varianza

Sesgo y la varianza son dos fuentes de errores que pueden tener lugar como usted está construyendo su modelo analítico.

Parcialidad es el resultado de la construcción de un modelo que simplifica significativamente la presentación de las relaciones entre los puntos de datos en los datos históricos utilizados para construir el modelo.

Diferencia es el resultado de la construcción de un modelo que es explícitamente específica a los datos utilizados para construir el modelo.

El logro de un equilibrio entre el sesgo y la varianza - mediante la reducción de la varianza y tolerar cierto sesgo - puede conducir a un mejor modelo predictivo. Esta compensación por lo general conduce a la construcción de modelos predictivos menos complejas.

Muchos algoritmos de minería de datos se han creado para tener en cuenta este compromiso entre sesgo y la varianza.

Cómo solucionar las ideas

Cuando se está probando su modelo y te encuentras yendo a ninguna parte, aquí están algunas ideas para considerar que pueden ayudarle a volver a la pista:

Video: Prueba Sensor TPS

  • Siempre verifique su trabajo. Es posible que haya pasado por alto algo que se supuso que era correcto, pero no lo es. Tales defectos podrían aparecer (por ejemplo) entre los valores de una variable predictiva del conjunto de datos, o en el pre-procesamiento que se aplica a los datos.

  • Si el algoritmo ha elegido no está dando ningún resultado, pruebe con otro algoritmo. Por ejemplo, intenta varios algoritmos de clasificación disponible y en función de los datos y los objetivos de negocio de su modelo, uno de los que puede funcionar mejor que los demás.

  • Intente seleccionar diferentes variables o crear nuevas variables derivadas. Estar siempre en la búsqueda de variables que tienen poderes de predicción.

  • consultar frecuentemente con los expertos en el dominio de negocio que pueden ayudar a dar sentido a los datos, seleccionar variables, e interpretar los resultados del modelo.

Artículos Relacionados