Fundamentos de clústeres de datos en el análisis predictivo

Video: Lección Nº1 Fundamentos de SQL para Minería de Datos

UN conjunto de datos (O colección de datos) es un conjunto de elementos en análisis predictivo. Por ejemplo, un conjunto de documentos es un conjunto de datos, donde los elementos de datos son documentos. Un conjunto de información social de los usuarios de la red (nombre, edad, lista de amigos, fotos, etc.) es un conjunto de datos, donde los elementos de datos son los perfiles de los usuarios de redes sociales.

agrupamiento de datos es la tarea de dividir un conjunto de datos en subconjuntos de elementos similares. Los elementos también pueden ser referidos como los casos, la observación, entidades u objetos de datos. En la mayoría de los casos, un conjunto de datos se representa en forma de tabla - una matriz de datos. Una matriz de datos es una tabla de números, documentos, o expresiones, representados en filas y columnas de la siguiente manera:

Cada fila corresponde a un elemento determinado en el conjunto de datos.
Las filas se denominan a veces artículos, objetos, instancias, u observaciones.
Cada columna representa una característica particular de un elemento.
Las columnas se denominan características o atributos.

La aplicación de la agrupación de datos a un conjunto de datos genera grupos de elementos de datos similares. Estos grupos se denominan racimos - colecciones de elementos de datos similares.

Similar artículos tienen una relación fuerte, medible entre ellos - verduras frescas, por ejemplo, son más similares entre sí que van a los alimentos congelados - y técnicas de agrupamiento usan esa relación para agrupar los elementos.

Video: Análisis de clústeres con R, usando una matriz 9x9

La fuerza de una relación entre dos o más artículos se puede cuantificar como una medida de similitud: Una función matemática calcula la correlación entre dos elementos de datos. Los resultados de ese cálculo, llamados valores de similitud, comparar esencialmente un elemento de datos particular, a todos los demás elementos del conjunto de datos. Esos otros artículos estarán ya sea más similar o menos similar en comparación con ese elemento específico.

similitudes calculados juegan un papel importante en la asignación de artículos a los grupos (racimos). Cada grupo tiene un elemento que mejor representa IT- este artículo se refiere como una representante clúster.

Considere un conjunto de datos que consta de varios tipos de frutas en una cesta. La cesta tiene frutos de diferentes tipos, tales como manzanas, plátanos, limones y peras. En este caso, las frutas son los elementos de datos. El proceso de agrupamiento de datos extrae los grupos de frutos similares de este conjunto de datos (cesta de frutas diferentes).

El primer paso en un proceso de agrupamiento de datos es traducir este conjunto de datos en una matriz de datos: Una forma de modelar este conjunto de datos es tener las filas representan los elementos en el conjunto de datos (frutas) - y las columnas representan las características o características, que describen Los artículos.

Por ejemplo, una característica de la fruta puede ser el tipo de fruta (como un plátano o manzana), el peso, el color o el precio. En este ejemplo conjunto de datos, los artículos tienen tres características: Tipo de fruta, color y peso.

En la mayoría de los casos, la aplicación de una técnica de agrupación de datos para el conjunto de datos de fruta como el descrito anteriormente que permite a

Recuperación de grupos (clusters) de elementos similares. Se puede decir que su fruto es del número N de grupos. Después de eso, si tienes que elegir una fruta al azar, usted será capaz de hacer una declaración sobre ese elemento como parte de uno de los grupos N.

Recuperar representantes de racimo de cada grupo. En este ejemplo, un representante cúmulo sería escoger un tipo de fruta de la cesta y poner a un lado. Las características de esta fruta son tales que la fruta que representa mejor el cluster al que pertenece.

Cuando haya terminado la agrupación, el conjunto de datos se organiza y se divide en grupos naturales.

agrupamiento de datos revela la estructura de los datos mediante la extracción de las agrupaciones naturales de un conjunto de datos. Por lo tanto, el descubrimiento de grupos es un paso esencial para la formulación de ideas e hipótesis sobre la estructura de los datos y la obtención de conocimientos para comprender mejor la misma.

la agrupación de datos también puede ser una forma de modelo de datos: Representa un cuerpo más grande de los datos por grupos o representantes de racimo.

Además, el análisis puede buscar simplemente para dividir los datos en grupos de elementos similares - como cuando segmentación de mercado particiones de datos de destino en el mercado en grupos tales como

Los consumidores que comparten los mismos intereses (como la cocina mediterránea)
Los consumidores que tienen necesidades comunes (por ejemplo, las personas con alergias a los alimentos específicos)

La identificación de los grupos de clientes similares puede ayudarle a desarrollar una estrategia de marketing que se ocupa de las necesidades de grupos específicos.

Por otra parte, la agrupación de datos también puede ayudar a identificar, aprender, o predecir la naturaleza de los nuevos elementos de datos - sobre todo cómo los nuevos datos se pueden vincular con hacer predicciones. Por ejemplo, en reconocimiento de patrones, el análisis de patrones en los datos (por ejemplo, los patrones de compra en determinadas regiones o grupos de edad) puede ayudarle a desarrollar análisis predictivo - en este caso, la predicción de la naturaleza de los futuros elementos de datos que pueden encajar bien con los patrones establecidos.

El ejemplo cesta de frutas utiliza la agrupación de datos para distinguir entre diferentes elementos de datos. Supongamos que su empresa ensambla cestas de fruta de encargo, y una nueva y desconocida fruta se introduce en el mercado. ¿Quieres aprender o predecir la cual se agrupan el nuevo elemento pertenecerá a si lo añade a la cesta de fruta.

Debido a que ya ha aplicado la agrupación de datos para el conjunto de datos de fruta, que tiene cuatro grupos - que hace que sea más fácil de predecir que se agrupan (tipo específico de fruta) es apropiada para el nuevo elemento. Todo lo que tiene que hacer es comparar el fruto desconocido para los representantes de los otros cuatro clusters e identificar qué grupo es el mejor partido.

Video: Analisis de patrones espaciales con ArcGIS

Aunque este proceso puede parecer obvio para una persona que trabaja con un pequeño conjunto de datos, no es tan obvio a una escala mayor - cuando se tiene a agruparse millones de artículos sin examinar cada uno. La complejidad se vuelve exponencial cuando el conjunto de datos es grande y diversa, y relativamente incoherente - que es por qué existen algoritmos de agrupamiento: Los ordenadores hacen ese tipo de trabajo mejor.