Cómo visualizar el análisis predictivo datos en bruto

Una imagen vale más que mil palabras - especialmente cuando usted está tratando de conseguir un buen control sobre sus datos de análisis predictivo. En la etapa de pre-procesamiento, mientras que usted está preparando sus datos, es una práctica común para visualizar lo que tiene en la mano antes de continuar con el siguiente paso.

Se empieza por el uso de una hoja de cálculo, como Microsoft Excel para crear una matriz de datos - que consiste en datos candidatos caracteristicas (También conocida como atributos). Varios paquetes de software de inteligencia de negocio (como Tableau) le puede dar una visión preliminar de los datos a la que está a punto de aplicar la analítica.

Cómo utilizar visualizaciones tabulares para el análisis predictivo

Las tablas son la representación más simple y básica pictórica de datos. Tablas (también conocido como hojas de cálculo) Se componen de filas y columnas - que corresponden, respectivamente, a los objetos y sus atributos mencionados anteriormente como hacer de sus datos. Por ejemplo, considere los datos de redes sociales en línea. Un objeto de datos podría representar un usuario. Los atributos de un usuario (objeto de datos) pueden ser encabezados de columnas: sexo, código postal, o fecha de nacimiento.

Las células en una tabla representan valores. La visualización de las tablas puede ayudar a detectar fácilmente los valores de atributos faltantes de objetos de datos.

Las tablas también pueden proporcionar la flexibilidad de añadir nuevos atributos que son combinaciones de otros atributos. Por ejemplo, en los datos de la red social, puede agregar otra columna llamada Edad, que se puede calcular fácilmente - como un atributo derivado - Del existente Fecha de Nacimiento atributo. Los datos tabulares red social muestra una nueva columna, Edad, creado a partir de otra columna existente (Fecha de nacimiento).

Los gráficos de barras utilizan en el análisis predictivo

Los gráficos de barras se pueden utilizar para detectar picos o anomalías en los datos. Se puede utilizar para cada atributo de la imagen rápidamente los valores mínimo y máximo. Los gráficos de barras también se pueden utilizar para iniciar una discusión sobre cómo normalizar sus datos.

Normalización es el ajuste de algunos - o todos - los valores de atributos en una escala que hace que los datos sean más utilizable. Por ejemplo, se puede ver fácilmente que hay un error en los datos: La barra de edad en un registro es negativo. Esa anomalía es más fácilmente representado por un gráfico de barras que por una tabla de datos.

Conceptos básicos de gráficos de sectores para el análisis predictivo

Los gráficos circulares se utilizan principalmente para mostrar porcentajes. Ellos pueden ilustrar fácilmente la distribución de varios artículos, y poner de relieve los más dominantes. Los datos en bruto de red social está representado de acuerdo con el atributo de edad. Observe que el gráfico muestra no sólo una clara distribución de los machos frente a las hembras, pero también un error probable: R como un valor para Tipo de género posiblemente crea cuando se recogieron los datos.

Modo de empleo de cartas gráfico para el análisis predictivo

La teoría de grafos proporciona un conjunto de potentes algoritmos que pueden analizar datos estructurados y representados como un gráfico. En informática, una grafico es la estructura de datos, una forma de organizar los datos que representan las relaciones entre pares de objetos de datos. Un gráfico se compone de dos partes principales:

  • Los vértices, también conocido como nodos

  • Los bordes, que conectan pares de nodos

Los bordes pueden ser dirigidas (dibujado como flechas) y pueden tener pesos. Puede decidir colocar un borde (flecha) entre dos nodos (círculos) - en este caso, los miembros de la red social que están conectados a otros miembros como amigos:

la dirección de la flecha indica la OMS “amigos” a quienes en primer lugar, o que inicia interacciones mayor parte del tiempo.

Fundamentos de nubes de palabras para el análisis predictivo

Considere una lista de palabras o conceptos dispuesto como nube de la palabra - una representación gráfica de todas las palabras de la lista, que muestra el tamaño de cada palabra a medida proporcional a una métrica que se especifique. Por ejemplo, si usted tiene una hoja de cálculo de las palabras y las ocurrencias y desea identificar las palabras más importantes, trate de una nube de palabras.

nubes de palabras de datos funcionan porque la mayoría de las organizaciones es en texto un ejemplo común es el uso de Twitter de tendencia términos. Cada término en esta representación tiene un peso que afecta a su tamaño como un indicador de su importancia relativa.

Una forma de definir que el peso podría ser por el número de veces que una palabra aparece en la recopilación de datos. Aparece la mayor frecuencia una palabra, el “pesado” su peso - y el más grande que aparece en la nube.

Cómo utilizar la representación que acuden las aves para el análisis predictivo

flocado comportamiento natural en general es un sistema de auto-organización en la que los objetos (en particular, los seres vivos) tienden a comportarse de acuerdo con (a) el entorno al que pertenecen y (b) sus respuestas a otros objetos existentes. El comportamiento de las sociedades que acuden naturales tales como las de las abejas, moscas, aves, peces, y las hormigas - o, para el caso, la gente - es también conocido como inteligencia de enjambre.

Los pájaros siguen reglas naturales cuando se comportan como un rebaño. Flock compañeros son aves situadas con una cierta distancia el uno del otro- esos pájaros se consideran similares. Cada ave se mueve de acuerdo a las tres reglas principales que organizan el comportamiento flocado.

  • Separación: Flock-compañeros no deben chocar entre sí.

  • Alineación: Flock-compañeros a moverse en la misma dirección media que sus vecinos.

  • Cohesión: Flock-compañeros se mueven de acuerdo a la posición media o la ubicación de su rebaño compañeros.

Modelar esas tres reglas puede permitir a un sistema analítico para simular comportamientos que acuden. Utilizando el comportamiento natural de auto-organizada de las aves que acuden, puede convertir una hoja de cálculo sencillo en una visualización. La clave es definir la noción de similitud como parte de sus datos. Comience con un par de preguntas:

  • Lo que hace que los objetos de datos en dos de sus datos similares?

  • ¿Qué atributos pueden conducir mejor la similitud entre dos registros de datos?

Por ejemplo, en los datos de la red social, los registros de datos individuales representan usuarios- los atributos que los describen pueden incluir la edad, código postal, estado civil, lista de amigos, número de amigos, hábitos, Eventos

Artículos Relacionados