La importancia de la agrupación y clasificación de datos en la ciencia

El propósito de agrupamiento y clasificación de los algoritmos es hacer sentido y extraer valor de grandes conjuntos de datos estructurados y no estructurados. Si se trabaja con grandes volúmenes de datos no estructurados, que sólo tiene sentido para tratar de dividir los datos en algún tipo de agrupaciones lógicas antes de intentar analizarlo.

La agrupación y clasificación le permite tomar una mirada panorámica de sus datos en masa y, a continuación, formar unas estructuras lógicas basadas en lo que se encuentra allí antes de profundizar en el análisis de tuercas y pernos.

En su forma más simple, racimos son un conjunto de puntos de datos que comparten atributos similares, y algoritmos de agrupamiento son los métodos de ese grupo de estos puntos de datos en diferentes grupos en función de sus similitudes. Verás algoritmos de agrupamiento utilizadas para la clasificación de la enfermedad en la ciencia médica, pero también verá los utilizaron para la clasificación de clientes en la investigación de mercados y para la evaluación del riesgo para la salud del medio ambiente en ingeniería ambiental.

Video: QUIMICA Tabla periódica actual - Clasificación de los elementos químicos

Existen diferentes métodos de agrupamiento, dependiendo de cómo quiere que su conjunto de datos que desea dividir. Los dos tipos principales de algoritmos de agrupamiento son

  • Jerárquico: Algoritmos crean conjuntos separados de grupos anidados, cada uno a su nivel jerárquico.

  • partitional: Algoritmos crean sólo un único conjunto de clusters.

Video: La tabla periódica. Clasificación de elementos

Se puede utilizar algoritmos de agrupamiento jerárquico sólo si usted ya conoce la distancia de separación entre los puntos de datos en el conjunto de datos. El algoritmo del vecino k-más cercana que se describe en este capítulo pertenece a la clase jerárquica de algoritmos de agrupamiento.

Es posible que haya oído hablar de clasificación y pensó que la clasificación es la misma cosa que el agrupamiento. Mucha gente lo hace, pero esto no es el caso. En la clasificación, antes de empezar, ya conoce el número de clases en las que los datos deben agruparse y ya sabe qué clase desea que cada punto de datos que se asignará. En la clasificación, los datos del conjunto de datos que se está aprendidas de la etiqueta.

Video: TIPOS DE DATOS ENTEROS SIN SIGNO EN C

Cuando se utiliza algoritmos de agrupamiento, por el contrario, no tiene concepto predefinido para el número de racimos son apropiados para sus datos, y que se basan en los algoritmos de agrupamiento para ordenar y agrupar los datos de la manera más apropiada. Con técnicas de agrupamiento, que está aprendiendo de datos no etiquetados.

Para ilustrar mejor la naturaleza de la clasificación, sin embargo, echar un vistazo a Twitter y su sistema de hash-etiquetado. Digamos que acaba de conseguir el asimiento de su bebida favorita en todo el mundo: un café con leche helado de caramelo de Starbucks. Eres tan felices de tener su bebida que decide pío al respecto con una foto y la frase “Este es el mejor café con leche NUNCA! #StarbucksRocks.”Bueno, por supuesto, que incluyen‘#StarbucksRocks’en su tweet para que el tweet entra en la corriente #StarbucksRocks y se clasifica junto con todos los otros tweets que han sido etiquetados como #StarbucksRocks. Su uso de la etiqueta hashtag en su tweet Twitter dijo cómo clasificar sus datos en un grupo reconocible y accesible, o racimo.

Artículos Relacionados