Fundamentos de la predictivo proceso de análisis de datos-clasificaciones

A un nivel de latón tachuelas, clasificación de datos analítica predictiva consiste en dos etapas: la etapa de aprendizaje y la etapa de predicción. La etapa de aprendizaje implica el entrenamiento del modelo de clasificación mediante la ejecución de un conjunto designado de los datos del pasado a través del clasificador. El objetivo es enseñar a su modelo de extraer y descubrir relaciones y reglas ocultas - la reglas de clasificación a partir de datos históricos (formación). El modelo lo hace mediante el empleo de un algoritmo de clasificación.

Video: UCAM - MiríadaX - Curso Aprende análisis estadístico de datos con R. Profesor Jorge López

La etapa de predicción que sigue a la etapa de aprendizaje consiste en hacer que el modelo predice nuevas etiquetas de clase o valores numéricos que clasifican los datos no ha visto antes (es decir, datos de prueba).

Para ilustrar estas etapas, que suponga&rsquo-re el dueño de una tienda online que vende relojes. Tú&rsquo-VE dueño de la tienda en línea durante bastante tiempo, y han reunido una gran cantidad de datos transaccionales y los datos personales de los clientes que han comprado relojes de su tienda. Supongamos que usted&rsquo-VE sido la captura de los datos a través de su sitio web, proporcionando formas, además de los datos transaccionales que&rsquo-VE obtenida a través de operaciones.

También puede comprar los datos de un tercero que le proporciona información acerca de sus clientes fuera de su interés en los relojes. Ese&No rsquo-es tan difícil como sonidos- hay empresas cuyo modelo de negocio es para hacer un seguimiento a los clientes en línea y recoger y vender información valiosa acerca de ellos.

La mayoría de esas terceras empresas recopilar datos de los sitios de medios sociales y aplicar métodos de minería de datos para descubrir la relación de los usuarios individuales con los productos. En este caso, como el dueño de una tienda de reloj,&rsquo-estaría interesado en la relación entre los clientes y su interés en la compra de relojes.

Se puede inferir que este tipo de información a analizar, por ejemplo, un perfil de red social de un cliente, o un comentario microblog de la especie a encontrar en Twitter.

Para medir un individuo&rsquo-s nivel de interés en los relojes, se podría aplicar cualquiera de las diversas herramientas de análisis de texto que pueden descubrir tales correlaciones en un individuo&rsquo-s texto escrito (estados de redes sociales, tweets, publicaciones en blogs, y tal) o actividad en línea (tales como las interacciones sociales en línea, la subida de fotos y búsquedas).

Después de recopilar todos los datos sobre sus clientes&rsquo- transacciones pasadas y actuales intereses - la datos de entrenamiento que muestra el modelo de lo que debe buscar - se&rsquo-ll necesidad de organizar en una estructura que hace que sea fácil de acceder y usar (como una base de datos).

En este punto,&rsquo-VE llegó a la segunda fase de clasificación de los datos: el etapa de predicción, que es todo acerca de las pruebas de su modelo y la exactitud de las reglas de clasificación que ha generado. A tal fin, se&rsquo-ll necesidad datos de los clientes históricos adicionales, conocidos como datos de prueba (Que es diferente de los datos de entrenamiento).

Video: (Estadística) - Organización y Representación de datos (2001-2005-2006)

Usted alimenta a estos datos de prueba en su modelo y medir la exactitud de las predicciones resultantes. Se cuentan las veces que el modelo predijo correctamente el comportamiento futuro de los clientes representados en los datos de prueba. También contar las veces que el modelo hace predicciones erróneas.

En este punto, usted tiene sólo dos resultados posibles: o bien se&rsquo-re satisfecho con la exactitud del modelo o usted no está&rsquo-t:

Si tu&rsquo-re satisfecho, entonces puede empezar a recibir su modelo listo para hacer predicciones como parte de un sistema de producción.
Si tu&rsquo-re no está satisfecho con la predicción, entonces&rsquo-ll necesidad de reciclar su modelo con un nuevo conjunto de datos de entrenamiento.

Si los datos de la formación original no era suficiente de la piscina de sus clientes representativa - o contenía datos ruidoso que se quitó el modelo&resultados rsquo-s mediante la introducción de señales falsas - entonces hay&rsquo-s más trabajo que hacer para obtener su modelo de funcionamiento. Conduzca a un resultado útil en su camino.