agrupación de los algoritmos utilizados en la ciencia de datos

Utiliza algoritmos de agrupamiento para subdividir sus conjuntos de datos en grupos de puntos de datos que son más similares para un atributo predefinido. Si usted tiene un conjunto de datos que describe varios atributos acerca de una característica particular y desea agrupar los puntos de datos de acuerdo a sus similitudes de atributos, a continuación, utilizar algoritmos de agrupamiento.

Un gráfico de dispersión sencilla de los países de ingreso y educación conjuntos de datos se obtiene el gráfico se puede ver aquí.

En agrupamiento no supervisado, se empieza con estos datos y luego proceder a dividirla en subgrupos. Estos subconjuntos se denominan racimos y se componen de puntos de datos que son más similares entre sí. Parece que hay por lo menos dos grupos, probablemente tres - uno en la parte inferior con bajos ingresos y la educación, y entonces los países de educación superior parece que van a ser divididos entre bajos y altos ingresos.

La siguiente figura muestra el resultado de echando un vistazo - hacer una estimación visual de - grupos en este conjunto de datos.

Aunque se pueden generar estimaciones visuales de la agrupación, se pueden obtener resultados mucho más precisos cuando se trata de conjuntos de datos mucho más grandes mediante el uso de algoritmos para generar clusters para usted. estimación visual es un método bruto que sólo es útil en conjuntos de datos más pequeños de complejidad mínima. Algoritmos producen exacta, resultados repetibles, y se puede utilizar para generar algoritmos de agrupamiento de múltiples dimensiones de los datos dentro de su conjunto de datos.

algoritmos de agrupamiento son un tipo de enfoque en el aprendizaje de la máquina sin supervisión - otros enfoques incluyen métodos y procedimientos para la reducción de la dimensión de Markov. algoritmos de agrupamiento son apropiadas en situaciones en las que las características siguientes son verdaderas:

Usted sabe y entiende el conjunto de datos que está analizando.
Antes de ejecutar el algoritmo de agrupamiento, que no tiene una idea exacta acerca de la naturaleza de los subconjuntos (clusters). A menudo, ni siquiera se sabe cuántos subconjuntos que hay en el conjunto de datos antes de ejecutar el algoritmo.
Los subconjuntos (clusters) son determinados por un conjunto de datos sólo el que está analizando.
Su objetivo es determinar un modelo que describe los subconjuntos en un único conjunto de datos y sólo este conjunto de datos.

Si agrega más datos, debe volver a ejecutar el análisis desde cero para obtener resultados completos y precisos modelo.