Métricas de similitud utilizados en la ciencia de datos

Tanto el agrupamiento y clasificación se basan en el cálculo de la similitud o diferencia entre dos puntos de datos. Si el conjunto de datos es numérico - compuesto por los campos de números únicos y valores - y puede ser retratado en una norte-parcela de dimensiones, entonces hay varias métricas geométricas que puede utilizar para escalar sus datos multidimensionales.

Un parcela n-dimensional es un gráfico de diagrama de dispersión multidimensional que se puede utilizar para trazar norte número de dimensiones de datos.

Algunas métricas geométricas populares utilizados para el cálculo de las distancias entre los puntos de datos incluyen euclidiano, Manhattan, o distancia métrica de Minkowski. Estas métricas son sólo diferentes funciones geométricas que son útiles para las distancias entre los puntos de modelado. La métrica euclidiana es una medida de la distancia entre puntos trazados en un plano euclidiano.

los métrica Manhattan es una medida de la distancia entre los puntos donde la distancia se calcula como la suma del valor absoluto de las diferencias entre las coordenadas cartesianas dos de punto. La distancia métrica de Minkowski es una generalización de las métricas de distancia euclidiana y Manhattan. Muy a menudo, estas métricas se pueden utilizar indistintamente.

Si los datos es numérico, pero no se pueden ubicar (tales como curvas en lugar de puntos), puede generar puntuaciones de similitud basado en diferencias entre los datos, en lugar de los valores reales de los datos en sí.

Video: ¿Qué es un científico de datos? - Hittco Update con Irving Morales de morlan.mx

Por último, para los datos no numéricos, se puede utilizar métricas como la distancia de Jaccard métrica, que es un índice que compara el número de características que dos puntos de datos tienen en común. Por ejemplo, para ilustrar una distancia de Jaccard, pensar en las dos siguientes cadenas de texto: San Luis de Ha-ha, Quebec y St-Louis de Ja! Ja !, QC.

¿Qué características tienen estas cadenas de texto tienen en común? Y qué características son diferentes entre ellos? La métrica de Jaccard genera un valor de índice numérico que cuantifica la similitud entre las cadenas de texto.

Artículos Relacionados