La agrupación de datos con el algoritmo de k-medias

Por lo general, implementar algoritmos K-medias para subdividir los puntos de datos de un conjunto de datos en grupos basados ​​en valores medios más próximos. Para determinar la división óptima de los puntos de datos en grupos, de tal manera que la distancia entre los puntos de cada grupo se minimiza, puede utilizar k-significa la agrupación.

En el término k-medias, k denota el número de clusters en los datos. Dado que el algoritmo de k-medias no determina esto, usted está obligado a especificar esta cantidad. La calidad de los racimos depende en gran medida de la exactitud de la k valor especificado. Si los datos son de dos o tres dimensiones, un espectro de posibles k valores pueden ser visualmente determinable.

En la aproximación eyeballed de la agrupación de la Renta del Banco Mundial y gráfico de dispersión de datos Educación, una estimación visual de la k valor equivaldría a 3 grupos, o k = 3.

Si el conjunto de datos tiene más de tres dimensiones, sin embargo, puede utilizar métodos computacionales para generar una buena relación calidad k. Uno de tales métodos es la coeficiente de silueta - un método que calcula la distancia media de cada punto de todos los otros puntos en un clúster, y luego compara ese valor con la distancia promedio para cada punto en todos los demás clúster. Por suerte, ya que el algoritmo de k-medias es tan eficiente que no requiere mucha capacidad de procesamiento, y se puede calcular fácilmente este coeficiente para una amplia gama de k valores.

Video: K-Means con WEKA

El algoritmo de k-medias funciona mediante la colocación de los centros de agrupación de la muestra en una norte-parcela dimensional y luego evaluar si se mueve en cualquier dirección resultaría en un nuevo centro con mayor densidad - con más puntos de datos más cercanos a él, en otras palabras.

Los centros se mueven de regiones de densidad más baja a las regiones de mayor densidad hasta que todos los centros están dentro de una región de densidad máximo local - un verdadero centro del grupo, donde cada grupo recibe un número máximo de puntos más cercanos a su centro del cúmulo.

Siempre que sea posible, se debe tratar de colocar los centros activa manualmente. Si eso no es posible, entonces sólo tiene que colocar los centros de azar y ejecutar el algoritmo varias veces para ver la frecuencia con que termina con los mismos grupos.

Una debilidad del algoritmo de k-medias es que puede producir resultados incorrectos mediante la colocación de centros de los conglomerados en áreas de densidad mínimo local. Esto sucede cuando se pierden en los centros regiones de baja densidad - en otras palabras, las regiones de la trama que tienen relativamente pocos puntos trazados en ellos - y el movimiento direccional algoritmo de guiado - el movimiento que está destinado a aumentar la densidad de punto - comienza a rebotar y oscilar entre clusters lejanos.

Video: Ejemplo básico algoritmo K-means con R studio

En estos casos, el centro se ve atrapado en un espacio de baja densidad que se encuentra entre dos de alto punto de zones.This densidad resultados en grupos erróneas en torno a los centros que convergen en áreas de baja densidad mínima, local. Irónicamente, esto ocurre con más frecuencia cuando está muy bien agrupado los datos subyacentes, con regiones densas apretados, que están separadas por zonas amplias, dispersas.

Para probar las cosas por sí mismo, puede empezar a agrupar sus datos con los métodos de K-medias utilizando cualquiera de R racimo paquete o Python SciPy biblioteca.

Artículos Relacionados