¿Cómo evaluar un modelo de aprendizaje no supervisado con k-medias

Después de que haya elegido su número de grupos de análisis predictivo y ha configurado el algoritmo para rellenar los racimos, tiene un modelo predictivo. Puede hacer predicciones basadas en nuevos datos de entrada llamando al predecir función de la instancia de k-medias y que pasa en una matriz de observaciones. Se parece a esto:

Video: KNN Weka Clasificador Explicación y ejemplo.avi

gt; gt; gt; # Para llamar a la función de predecir con un solo observationgt; gt; gt; kmeans.predict ([5,1, 3,5, 1,4, 0,2]) matriz ([1])

Cuando el predecir función encuentra el centro de la agrupación que la observación es más cercana a, emite el índice de matriz de ese centro de la agrupación. matrices de Python se indexan a 0 (es decir, el primer elemento comienza a 0). Las observaciones más cercanos a un centro del cúmulo se agruparán en ese grupo.

En este ejemplo, el K-significa algoritmo predice que la observación pertenece al grupo 1 (Setosa en este caso) - una predicción fácil porque la clase Setosa es linealmente separable y lejos de las otras dos clases.

Además, este ejemplo incluye sólo la primera observación del conjunto de datos para hacer la predicción verificable y fácil de explicar. Se puede ver que los atributos de la observación de que estamos tratando de predecir están muy cerca del centro de la segunda agrupación (kmeans.cluster_centers_ [1]).

Para ver los centros de los conglomerados, escriba el código siguiente:

gt; gt; gt; kmeans.cluster_centers_array ([[5,9016129, 2,7483871, 4,39354839, 1,43387097], [5.006, 3.418, 1.464, 0.244], [6,85, 3,07368421, 5,74210526, 2,07105263]])

Para ver las etiquetas de racimo que produce el algoritmo K-means, escriba el código siguiente:

Video: Aprendizaje Supervisado - Introducción intuitiva

gt; gt; gt; kmeans.labels_array ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1 , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 , 1, 1, 0,0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0 , 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 0, 2, 0,2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2,0, 2, 0, 2 , 0, 2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2,2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2 , 2, 0])

También puede utilizar el predecir funcionar para evaluar un conjunto de observaciones, como se muestra aquí:

gt; gt; gt; # Para llamar al método de predecir con un conjunto de pointsgt datos; gt; gt; kmeans.predict ([[5,1, 3,5, 1,4, 0,2], [5,9, 3,0, 5,1, 1,8]]) matriz ([1,0])

Aunque se sabe que la solución de tres clústeres es técnicamente correcto, no se sorprenda si intuitivamente la solución de dos cúmulo parece mirar la mejor. Si aumenta el número de grupos sobre la tercera, la tasa de éxito de sus predicciones empieza a descomponerse. Con un poco de suerte (y algunos de adivinanzas educadas), elegirá el mejor número de racimos.

Video: Planeación por competencias - Secuencia didáctica y Método de proyectos

Considerar el proceso como mezclar un poco de arte con la ciencia. Incluso el propio algoritmo utiliza la aleatoriedad en la selección de los puntos de datos iniciales que utiliza para iniciar cada grupo. Así que incluso si usted está adivinando, estás en buena compañía.

Evaluar el desempeño de un algoritmo requiere una etiqueta que representa la esperado valor y una predicho valor a comparar con. Recuerde que cuando se aplica un algoritmo de agrupamiento a un modelo de aprendizaje no supervisado, que no sabe lo que son los valores esperados - y usted no da las etiquetas para el algoritmo de agrupamiento.

El algoritmo pone puntos de datos en grupos sobre la base de qué puntos de datos son similares a uno de otro- diferentes puntos de datos terminan en otros grupos. Para el conjunto de datos del iris, K-means no tiene concepto de Setosa, versicolor, o Virginica classes- sólo se sabe que se supone que agrupar los datos en tres grupos y nombrarlos al azar entre 0 y 2.

El propósito de aprendizaje no supervisado con el clúster es encontrar relaciones significativas en los datos, preferiblemente donde no se podía haberlos visto de otra manera. Depende de usted decidir si esas relaciones son una buena base para una visión práctica.