Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de las medidas es el siguiente:

  1. Identificar las fuentes de datos.

    Video: WEBINAR: Análisis predictivo con dVelox Base - Apara Predictive Analytics

    Los datos podrían estar en diferentes formatos o residir en diversos lugares.

  2. Identificar cómo va a acceder a esos datos.

    A veces, lo que se necesita para adquirir datos de terceros, o datos de propiedad de una división diferente en su organización, etc.

  3. Considere qué variables incluir en su análisis.

    Un enfoque estándar es comenzar con una amplia gama de variables y eliminar los que ofrecen ningún valor predictivo para el modelo.

  4. Determinar si se debe utilizar variables derivadas.

    En muchos casos, una variable derivada (por ejemplo, la relación precio-por-ganancia utilizado para analizar precios de las acciones) tendría un mayor impacto directo en el modelo de lo que lo haría la variable prima.

  5. Explorar la calidad de sus datos, buscando entender tanto su estado y limitaciones.

    La exactitud de las predicciones del modelo se relaciona directamente con las variables que seleccione y la calidad de sus datos. Que se quiere responder a algunas preguntas de datos específica en este punto:

  6. Son los datos completa?

  7. ¿Tiene cualquier valor atípico?

  8. ¿Los datos tienen que limpiar?

  9. Qué se necesita para rellenar los valores que faltan, mantenerlos como están, o eliminarlos por completo?

La comprensión de sus datos y de sus propiedades puede ayudar a elegir el algoritmo que será más útil en la construcción de su modelo. Por ejemplo:

  • algoritmos de regresión se pueden utilizar para analizar los datos de series de tiempo.

  • algoritmos de clasificación se pueden utilizar para analizar datos discretos.

  • algoritmos de asociación se pueden utilizar para los datos con atributos correlacionados.

El conjunto de datos utilizados para entrenar y probar el modelo debe contener información comercial relevante para responder al problema que estamos tratando de resolver. Si su objetivo es (por ejemplo) para determinar qué cliente es probable que batir, entonces el conjunto de datos que elija debe contener información sobre los clientes que se han batido en el pasado, además de los clientes que no tienen.

Algunos modelos creados para explotar los datos y dar sentido a sus relaciones subyacentes - por ejemplo, aquellos construidos con algoritmos de agrupamiento - necesidad no tiene un resultado final en mente.

Se plantean dos problemas cuando se trata de datos que usted está construyendo su modelo: underfitting y sobreajuste.

underfitting

underfitting es cuando el modelo no puede detectar ningún relaciones en sus datos. Esto suele ser una indicación de que las variables esenciales - los que tienen poder predictivo - no se incluyeron en el análisis. Por ejemplo, un análisis de valores que incluye sólo los datos de un mercado alcista (en precios de las acciones globales están subiendo) no da cuenta de las crisis o las burbujas que pueden traer grandes correcciones a los resultados globales de las acciones.

No incluir datos que se extiende por tanto toro y mercados a la baja (al precio de las acciones globales están cayendo) mantiene el modelo de producción de la mejor selección de la cartera sea posible.

sobreajuste

sobreajuste es cuando su modelo incluye datos que no tiene poder predictivo pero sólo es específico para el conjunto de datos que está analizando. ruido - variaciones aleatorias en el conjunto de datos - pueden encontrar su camino en el modelo, de forma que la ejecución del modelo en un conjunto de datos diferente produce una caída importante en el rendimiento y la precisión predictiva del modelo. La barra lateral que acompaña proporciona un ejemplo.

Si el modelo funciona igual de bien en un conjunto de datos en particular y sólo underperforms cuando lo prueba en un conjunto de datos diferente, sobreajuste sospechoso.

Artículos Relacionados