Preparación de los datos para análisis predictivo

Video: Cómo hacer un Resumen - Técnicas de Estudio

Cuando haya definido los objetivos del modelo, el siguiente paso en el análisis predictivo es identificar y preparar los datos que va a utilizar para construir su modelo. La siguiente información roza las actividades más importantes. La secuencia general de las medidas es el siguiente:

  1. Identificar las fuentes de datos.
    Los datos podrían estar en diferentes formatos o residir en diversos lugares.
  2. Identificar cómo va a acceder a esos datos.
    A veces, lo que se necesita para adquirir datos de terceros, o datos de propiedad de una división diferente en su organización, etc.
  3. Considere qué variables incluir en su análisis.

    Un enfoque estándar es comenzar con una amplia gama de variables y eliminar los que no ofrecen ningún valor predictivo para el modelo.

    Video: Rascador para gatos DIY

  4. Determinar si se debe utilizar variables derivadas.
    En muchos casos, una variable derivada (por ejemplo, la relación precio-por-ganancia utilizado para analizar precios de las acciones) tendría un mayor impacto directo en el modelo de lo que lo haría la variable prima.
  5. Explorar la calidad de sus datos, buscando entender tanto su estado y limitaciones.
    La exactitud de las predicciones del modelo se relaciona directamente con las variables que seleccione y la calidad de sus datos. Que se quiere responder a algunas preguntas de datos específica en este punto:
  6. Son los datos completa?
  7. ¿Tiene cualquier valor atípico?
  8. ¿Los datos tienen que limpiar?
  9. Qué se necesita para rellenar los valores que faltan, mantenerlos como están, o eliminarlos por completo?

La comprensión de sus datos y de sus propiedades puede ayudar a elegir el algoritmo que será más útil en la construcción de su modelo. Por ejemplo:

  • algoritmos de regresión se pueden utilizar para analizar los datos de series de tiempo.
  • algoritmos de clasificación se pueden utilizar para analizar datos discretos.
  • algoritmos de asociación se pueden utilizar para los datos con atributos correlacionados.

algoritmos y técnicas predictivas individuales tienen diferentes fortalezas y debilidades. Lo más importante, la exactitud del modelo se basa en tener tanto una gran cantidad y calidad de los datos. Sus datos deben tener un número suficiente de registros para proporcionar resultados estadísticamente significativos.

La recolección de datos relevantes (preferentemente el número de registros durante un largo período de tiempo), pre-procesamiento y extracción de las características con la mayoría de los valores predictivos será donde pasa la mayor parte de su tiempo. Pero todavía tiene que elegir el algoritmo inteligente, un algoritmo que debe ser adecuado al problema de negocio.

preparación de datos es específica para el proyecto que está trabajando y el algoritmo que elija a emplear. Dependiendo de los requisitos del proyecto, se preparará los datos oportunos y alimentar al algoritmo a medida que construye su modelo para hacer frente a las necesidades de negocio.

Video: Técnica 8, Análisis e interpretación de datos

El conjunto de datos utilizados para entrenar y probar el modelo debe contener información comercial relevante para responder al problema que estamos tratando de resolver. Si su objetivo es (por ejemplo) para determinar qué cliente es probable que batir, entonces el conjunto de datos que elija debe contener información sobre los clientes que se han batido en el pasado, además de los clientes que no tienen.

Algunos modelos creados para explotar los datos y dar sentido a sus relaciones subyacentes - por ejemplo, aquellos construidos con algoritmos de agrupamiento - necesidad no tiene un resultado final en mente.

underfitting

underfitting es cuando el modelo no puede detectar ningún relaciones en sus datos. Esto suele ser una indicación de que las variables esenciales - los que tienen poder predictivo - no se incluyeron en el análisis.

Si las variables utilizadas en el modelo no tienen alto poder predictivo, a continuación, trate de añadir nuevas variables específicas de dominio y volver a ejecutar el modelo. El objetivo final es mejorar el rendimiento del modelo a los datos de entrenamiento.

Otra cuestión a tener en cuenta es estacionalidad (Cuando se tiene patrón estacional, si usted no puede analizar múltiples temporadas puede meterse en problemas.) Por ejemplo, un análisis de valores que incluye sólo los datos de un mercado alcista (en precios de las acciones globales están subiendo) no da cuenta de las crisis o burbujas que pueden traer grandes correcciones a los resultados globales de las acciones. No incluir datos que se extiende por tanto toro y mercados a la baja (al precio de las acciones globales están cayendo) mantiene el modelo de producción de la mejor selección de la cartera sea posible.

sobreajuste

sobreajuste es cuando su modelo incluye datos que no tiene poder predictivo pero sólo es específico para el conjunto de datos que está analizando. Ruido - variaciones aleatorias en el conjunto de datos - pueden encontrar su camino en el modelo, de forma que la ejecución del modelo en un conjunto de datos diferente produce una caída importante en el rendimiento y la precisión predictiva del modelo.

Artículos Relacionados