Fundamentos de modelos de clasificación para predicciones analíticas

Una vez que tenga todas las herramientas y los datos necesarios para comenzar a crear un modelo predictivo, comienza la diversión. En general, la creación de un modelo de aprendizaje para las tareas de clasificación que implicará los siguientes pasos:

Video: Enfoque Sistemico UCC

  1. Cargar los datos.

  2. Elija un clasificador.

  3. Entrenar el modelo.

  4. Visualizar el modelo.

  5. Probar el modelo.

    Video: Modelos Estocásticos: Clasificación de hipótesis

  6. Evaluar el modelo.

Tanto la regresión logística y los modelos de clasificación de vectores de soporte de la máquina (SVM) realizan bastante bien utilizando el conjunto de datos del iris.

sépalo Longitudsépalo AnchoLongitud pétalopétalo AnchoClase de destino / de la etiqueta
5.13.51.40.2Setosa (0)
7.03.24.71.4Versicolor (1)
6.33.36.02.5Virginica (2)

El modelo de regresión logística con el parámetro C = 1 era perfecto en sus predicciones, mientras que el modelo SVM y el modelo de regresión logística con C = 150 perdieron sólo una predicción. De hecho, la alta precisión de ambos modelos es el resultado de tener un pequeño conjunto de datos que tiene puntos de datos que están bastante cerca linealmente separables.

Curiosamente, el modelo de regresión logística con C = 150 tenía una parcela de superficie de decisión más atractivo que el de C = 1, pero no un mejor desempeño. Eso no es una cosa muy importante, teniendo en cuenta que el equipo de prueba es tan pequeño. Si se hubiera seleccionado otra división al azar entre el conjunto de entrenamiento y de prueba, los resultados podrían haber sido fácilmente diferente.

Esto revela otra fuente de complejidad que surge en la evaluación del modelo: el efecto del muestreo, y cómo elegir la formación y las pruebas conjuntos pueden afectar el resultado del modelo. técnicas de validación cruzada pueden ayudar a minimizar el impacto de un muestreo aleatorio en el rendimiento del modelo.

Para un mayor conjunto de datos con los datos de forma no lineal separables, que se puede esperar que los resultados se desvían aún más. Además, la elección del modelo adecuado se vuelve cada vez más difícil debido a la complejidad y el tamaño de los datos. Esté preparado para pasar una gran cantidad de tiempo Ajuste de sus parámetros para obtener un ajuste ideal.

Al crear modelos predictivos, probar un par de algoritmos y exhaustivamente ajustar sus parámetros hasta encontrar lo que funciona mejor para sus datos. Luego compare sus salidas una contra la otra.

Artículos Relacionados