Cómo utilizar k-significa algoritmos de racimo en el análisis predictivo

K es una entrada al algoritmo para análisis- predictivo que representa el número de agrupaciones que el algoritmo debe extraer de un conjunto de datos, expresada algebraicamente como k. Un algoritmo K-means divide un conjunto de datos dado en k racimos. El algoritmo lleva a cabo las siguientes operaciones:

  1. Recoger k artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.

    Video: 2. Programación en C - Concepto de Algoritmo

  2. Asociar cada elemento restante en el conjunto de datos con el representante más cercano de clúster, usando una distancia euclidiana calculada por una función de similitud.

    Video: Concepto de Algoritmo, Lenguaje Natural -Psedocódigo - Diagrama de Flujo - lenguaje de programación

  3. Volver a calcular los nuevos representantes de clusters.

  4. Repita los pasos 2 y 3 hasta que los racimos no cambian.

Un representante de un grupo es la matemática media (Promedio) de todos los elementos que pertenecen al mismo grupo. Este representante también se llama una grupo centroide. Por ejemplo, considerar tres elementos del conjunto de datos, donde las frutas

Tipo 1 corresponde a los plátanos.

Video: Definición y características de un algoritmo

Tipo 2 corresponde a las manzanas.

Color 2 corresponde a amarillo.

Color 3 corresponde a verde.

Video: Clase 2, funciones

Suponiendo que estos elementos se asignan al mismo grupo, se calcula el centro de gravedad de estos tres elementos.

ít.La función # 1 TipoLa función # 2 ColorCaracterística # 3 Peso (onzas)
1125.33
2239.33
3122.1

Éstos son los cálculos de un representante de grupo de tres elementos que pertenecen al mismo grupo. El representante de clúster es un vector de tres atributos. Sus atributos son el promedio de los atributos de los elementos de la agrupación en cuestión.

ít.La función # 1 TipoLa función # 2 ColorCaracterística # 3 Peso (onzas)
1125.33
2239.33
3122.1
Representante Cluster (Vector Centroide)(1 + 2 + 1) /3=1.33(2 + 3 + 2) /3=2.33(5.33 + 9.33 32.1) / 3 = 3

El conjunto de datos se muestra a continuación consta de calificaciones de dos productos, A y B. siete clientes El ranking representa el número de puntos (entre 0 y 10) que cada cliente ha dado a un producto - más puntos dada, cuanto mayor sea el producto es clasificado.

El uso de un algoritmo K-means y suponiendo que k es igual a 2, el conjunto de datos se divide en dos grupos. El resto del procedimiento es el siguiente:

  1. Escoja dos artículos al azar del conjunto de datos y etiquetarlos como representantes de racimo.

    A continuación se muestra el paso inicial de seleccionar centroides aleatorios a partir de la cual el K-medias comienza proceso de agrupamiento. Los centroides iniciales son seleccionados al azar a partir de los datos que están a punto de analizar. En este caso, usted está en busca de dos grupos, por lo que dos elementos de datos son seleccionados al azar: Los clientes 1 y 5.

    Al principio, el proceso de agrupamiento genera dos grupos alrededor de esos dos representantes de racimo iniciales (seleccionados al azar). A continuación, los representantes de racimo son recalculated- el cálculo se basa en los elementos de cada grupo.

    Identificación del clienteCalificación de los clientes de un productoCalificación de los clientes de Producto B
    122
    234
    368
    4710
    51014
    6910
    779
  2. Inspeccionar cada otro artículo (cliente) y asignarla al representante de clúster en los que es más similar.

    Utilizar el distancia euclidiana para calcular la similitud de un artículo es para un grupo de artículos:

    Similitud de Punto I a agruparse X = sqrt {{{left ({{f_1} - {x_1}} derecha)} ^ 2} + {{left ({{f_2} - {x_2}} derecha)} ^ 2} + cdots + {{left ({{f_n} - {x_n}} derecha)} ^ 2}}

    Los valores {F_1}, {-}, f_2 - ldots, - {f_n} son los valores numéricos de las características que describen el objeto en cuestión. Los valores {x_1}, - {x_2}, - ldots, - {x_n} son las características (valores medios) de la representante cluster (centroide), asumiendo que cada elemento tiene norte caracteristicas.

    Por ejemplo, considere el elemento llamado de atención al cliente 2 (3, 4): Valoración del cliente para el Producto A fue de 3 y la calificación para el producto B fue de 4. La función de representante de clúster es (2, 2). La similitud de cliente 2 a Cluster 1 se calcula como sigue:

    Similitud de artículo 2 al grupo 1 = sqrt {{{left ({3 - 2} derecha)} ^ 2} + {{izquierda ({4 - 2} derecha)} ^ 2}} = 2,23

    Esto es lo que el mismo proceso se parece con el Grupo 2:

    Similitud de artículo 2 a agruparse 2 = sqrt {{{left ({3 - 10} derecha)} ^ 2} + {{izquierda ({4 - 14} derecha)} ^ 2}} = 12.20

    La comparación de estos resultados, se asigna artículo 2 (es decir, el cliente 2) para el grupo 1 debido a que los números dicen artículo 2 es más similar al grupo 1.

  3. Aplicar el mismo análisis de similitud a todos los demás elementos del conjunto de datos.

    Cada vez que un nuevo miembro se une a un clúster, debe volver a calcular el representante clúster.

    Esto representa los resultados de la primera iteración del algoritmo K-media. Darse cuenta de k es igual a 2, por lo que está buscando a dos grupos, que divide un conjunto de clientes en dos grupos significativos. Cada cliente se analiza por separado y se asigna a uno de los grupos sobre la base de la similitud del cliente para cada uno de los representantes de racimo actuales.

  4. Iterar el conjunto de datos de nuevo, pasando a través de cada compute element- la similitud entre cada elemento y su representante clúster actual.

    Observe que el Cliente 3 se ha movido de Cluster 1 con el clúster 2. Esto es porque la distancia al Cliente de 3 al representante racimo de Cluster 2 está más cerca que al representante racimo de Cluster 1.

    Representante Cluster (Vector Centroide)
    Grupo 1ID de cliente # 1 (2, 2)
    Grupo 2ID de cliente # 5 (10,14)
    Iteración # 1Cluster cliente 1Cluster cliente 2
    Cliente para ser examinadaID de cliente que pertenecen al Grupo 1Representante ClusterID de cliente que pertenecen al Grupo 1Representante Cluster
    1(2, 2)5(10, 14)
    21, 2(2,4, 3)5(10, 14)
    31, 2, 3(3.6, 4.6)5(10, 14)
    41, 2, 3(3.6, 4.6)4, 5(8.4, 12)
    61, 2, 3(3.6, 4.6)4, 5, 6(8.6, 11.4)
    71, 2, 3(3.6, 4.6)4, 5, 6, 7(8.2, 10.8)

Aquí está una segunda iteración del algoritmo k-medias en los datos de los clientes. se volvió a analizar cada cliente. Cliente 2 está siendo asignado al grupo 1 porque Cliente 2 está más cerca del representante del Grupo 1 de Cluster 2. El mismo escenario se aplica al Cliente 4. Tenga en cuenta que un representante de clúster está siendo recalculado cada vez que un nuevo miembro se le asigna a un clúster.

Iteración # 2Cluster cliente 1Cluster cliente 2
Cliente para ser examinadaID de cliente que pertenecen al Grupo 1Representante ClusterID de cliente que pertenecen al Grupo 2Representante Cluster
11(3.6, 4.6)5(8.2, 10.8)
21, 2(5,2, 3)5(8.2, 10.8)
31, 2(5,2, 3)5,3(7.8, 10.2)
41, 2(5,2, 3)4, 5.3(7.8, 10.2)
61, 2(5,2, 3)4, 5, 6,3(7.8, 10.2)
71, 2(5,2, 3)3, 4, 5, 6, 7(7.8, 10.2)
Artículos Relacionados