Análisis de datos más cercano vecino

Video: Data Mining: Agrupamiento con K-Means. Segunda Parte

En su esencia, el propósito de un análisis de vecino más cercano está a la búsqueda y localización, ya sea un punto más cercano en el espacio o el valor numérico más cercano, dependiendo del atributo se utiliza para la base de comparación.

Video: ArcMap 10.1 Average Nearest Neighbor Analysis

Dado que la técnica vecino más cercano es un método de clasificación, se puede utilizar para hacer cosas tan científica como la deducción de la estructura molecular de una proteína humana vital o el descubrimiento de las relaciones evolutivas biológicos clave, y como impulsado por el negocio, como el diseño de los motores de recomendación para los sitios de comercio electrónico o la construcción de modelos predictivos para las transacciones de los consumidores. Las aplicaciones son ilimitadas.

Una buena analogía para el concepto de análisis del vecino más cercano se ilustra en la tecnología GPS. Imagínese que usted está en necesidad desesperada de un café con leche helado de Starbucks, pero no tiene idea de dónde se encuentra el Starbucks más cercano. ¿Qué haces? Una solución fácil es simplemente preguntar a su teléfono inteligente donde se encuentra el Starbucks más cercano.

Video: Análisis exploratorio de datos gráficamente. Histograma, Box plot o diagrama de caja

Cuando se hace esto, el sistema busca las empresas nombradas Starbucks dentro de una distancia razonable de su ubicación actual. Después de generar una lista resultados, los informes del sistema de nuevo a usted con la dirección de la cafetería Starbucks más cercano a su ubicación actual - el Starbucks que es su vecino más cercano, en otras palabras.

Como el término Vecino más cercano indica, el propósito principal de un análisis del vecino más cercano es el de examinar el conjunto de datos y encontrar el punto de datos que es cuantitativamente más similar a su punto de datos de observación. Tenga en cuenta que las comparaciones de similitud pueden ser basados en cualquier atributo cuantitativo, ya sea de distancia, la edad, el ingreso, el peso, o cualquier otra cosa que pueda describir los datos señalan que está investigando. El atributo más simple comparativa es la distancia.

En la analogía Starbucks anterior, la x, y, z coordenadas del Starbucks informaron a usted por el teléfono inteligente son los más similares a la x, y, z las coordenadas de su ubicación actual. En otras palabras, su ubicación es más cercano en la distancia física real. la cuantitativa atributo que se comparan es la distancia, su ubicación actual es la punto de datos de observación, y la cafetería de la cadena reportado es el más característica similar.

Los análisis de vecinos más cercanos modernas casi siempre se realizan utilizando algoritmos computacionales. El algoritmo del vecino más cercano es conocida como una algoritmo de enlace único - un algoritmo que combina grupos si los grupos comparten al menos una borde conectivo (Límite de una línea compartida, en otras palabras) entre ellos.