Fundamentos de la k-medias y modelos de agrupamiento DBSCAN para análisis predictivo

Video: Análisis cluster (k-means y caso práctico)

aprendizaje no supervisado tiene muchos retos para el análisis predictivo - incluyendo sin saber qué esperar cuando se ejecuta un algoritmo. Cada algoritmo producirá diferente en los resultados que nunca estará seguro de si un resultado es mejor que el otro - o incluso si el resultado es de ningún valor.

Cuando se sabe cuáles deberían ser los resultados, usted puede ajustar los algoritmos para producir los resultados deseados. En los conjuntos de datos del mundo real, que no tendrá este lujo. Vas a tener que depender de algún conocimiento previo de los datos - o la intuición - para decidir qué parámetros de inicialización y algoritmos para usar al crear el modelo.

En las tareas de aprendizaje no supervisado reales, sin embargo, este conocimiento previo no está disponible y el resultado deseado es difícil de encontrar. Elegir el número correcto de los clusters es el problema clave. Si le sucede a tropezar con el número correcto de las agrupaciones, los datos aportarán datos que se pueden hacer predicciones muy precisas. Por otro lado, adivinando el número incorrecto de grupos puede dar resultados mediocres.

Video: analisis k medias

K-means algoritmo es una buena opción para los conjuntos de datos que tienen un pequeño número de grupos con tamaños proporcionales y los datos linealmente separables - y se puede escalar hasta uso del algoritmo de grandes bases de datos.

Pensar en linealmente separables datos como un montón de puntos en un gráfico que puede ser separada por medio de una línea recta. Si los datos no es linealmente separable, versiones a continuación más avanzadas de K-means tendrán que ser empleado - los cuales serán más caros computacionalmente y pueden no ser adecuado para grandes conjuntos de datos. En su ejecución estándar, la complejidad para calcular los centros de agrupamiento y distancias es baja.

Video: Data Mining: Agrupamiento con K-Means. Primera Parte

K-means se emplean ampliamente para resolver problemas grandes de datos, porque es fácil de usar, eficaz y altamente escalable. No es extraño que la mayoría de los vendedores comerciales utilizan el algoritmo k-medias como un componente clave de sus paquetes de análisis predictivo.

El DBSCAN (agrupación espacial Densidad-base de aplicaciones con ruido) en aplicación scikit-learn no requiere ningún parámetro de inicialización definidos por el usuario para crear una instancia. Puede anular los parámetros por defecto durante la inicialización si lo desea. Desafortunadamente, si usted está utilizando los parámetros por defecto, el algoritmo puede no proporcionar un partido cercano al resultado deseado.

Video: Tutoriales RapidMiner: Agrupamiento con K-Means

DBSCAN es más adecuado para conjuntos de datos que tienen tamaños de clúster desproporcionados, y cuyos datos pueden ser separados de una manera no lineal. Al igual que K-means, DBSCAN es escalable, pero usarlo en grandes bases de datos requiere más memoria y potencia de cálculo.