Las asociaciones entre variables binarias

Muy a menudo en el análisis de clientes, se encuentra con datos binarios que toma la forma de sí / no, compra / no compra, de acuerdo / desacuerdo, y así sucesivamente. Es necesario comprender la asociación entre variables binarias del mismo modo que hay que entender la asociación entre las variables continuas. Aunque el principio de correlación es lo mismo con datos binarios, sin embargo, los cálculos son diferentes.

Uno de los ejemplos más conocidos y visibles de análisis predictivo con datos binarios es el motor de recomendación de Amazon.

Mientras que el algoritmo exacto utiliza Amazon es propietaria, se sabe que gran parte de ella se basa en una asociación que indica que una persona que compra un libro también compra otro libro. Las recomendaciones se basan en variables binarias. Para generar una recomendación, Amazon calcula la proporción de clientes que compran un libro y la proporción de los mismos clientes que compren cualquier número de otros libros.

Libros con la asociación más alta se recomiendan en primer lugar, las siguientes asociaciones de más alto siguiente, y así sucesivamente. La siguiente figura muestra las transacciones de 15 clientes en cuatro libros. Estas mismas probabilidades podrían ser de software, comestibles, canciones en una lista de reproducción, programas de televisión, o cualquier producto o servicio los clientes pueden elegir.

Si el cliente ha comprado el libro, hay un 1 en la fila-si no lo hacía, hay un 0. Por ejemplo, el Cliente 1 adquirido libro libro A y B, pero no en C o D. cliente 2 comprado único Libro B.

Para calcular la asociación entre cualquier par de compras de libros, siga estos pasos:

  1. Contar el número de clientes que han comprado cada una de estas combinaciones de los libros:

  2. Ni el libro

  3. ambos libros

  4. Sólo un libro

  5. Sólo libro B

  6. Ponga los totales en una tabla, como esto:

    libro B
    ReservarYnorte
    Y62
    norte34

    Por ejemplo, seis clientes compran tanto Libros A y B.

  7. Etiquetar las celdas de tabla A a D, de esta manera:

    libro B
    ReservarYnorte
    Yunsegundo
    nortedore
  8. Usa la fórmula para la correlación entre variables binarias:

  9. Rellene los valores de los libros para encontrar la correlación entre las variables binarias, como este:

    En este caso, la correlación entre los clientes que compren libro Un libro y B es 0,327.

    Una correlación entre las variables binarias se llama phi, y se representa con el símbolo griego

Se puede interpretar la asociación entre los números binarios de la misma manera que la correlación de Pearson r. De hecho, phi es un método abreviado para la informática r. Se obtienen los mismos resultados mediante el uso de la fórmula de Excel Pearson y el cálculo de la correlación para todos los conjuntos de datos.

La siguiente figura muestra la configuración de datos en Excel. La correlación entre todos los pares de libros se calculó utilizando la = PEARSON () función de Excel.

Video: RELACIONES BINARIAS CONCEPTO

A continuación, se creó una matriz de correlaciones para cada par de libros, como se muestra aquí:

Confirmando el resultado anterior, la correlación entre el libro A y B es 0,33. El segundo más alto de correlación es entre libro A y libro D en 0,25.

Video: ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS II

La correlación entre el libro B y C libro es -.48. Esta correlación negativa significa que los clientes que compran libro B son menos propensos a comprar libro C.

Así que si un cliente está viendo y considerando la compra de un libro, que tendría sentido para recomendar (y posiblemente ofrecer a ese cliente un incentivo) a comprar también libro B y D, pero no libro C.

Es posible que escuche los términos Análisis de la cesta o Análisis de afinidad. Ambos son simplemente otro nombre para la búsqueda de asociaciones y correlaciones entre las variables. Es como el examen de cestas de compra de los clientes en una tienda de comestibles para ver qué artículos se compran juntos.

Artículos Relacionados