Utilizando los datos relevantes para el análisis predictivo: evitar la “basura, sale basura”

El análisis predictivo comienza con buenos datos. Más datos no significa necesariamente mejores datos. Un proyecto de análisis predictivo de éxito requiere, en primer lugar, los datos pertinentes y exactos.

Hacer que sea sencillo no es tonto

Si usted está tratando de hacer frente a una decisión de negocios complejos, puede que tenga que desarrollar modelos igualmente complejos. Tenga en cuenta, sin embargo, que un modelo excesivamente complejo puede degradar la calidad de las predicciones preciosos que está buscando, haciéndolos más ambigua. El más simple de mantener su modelo, el mayor control que tiene sobre la calidad de los resultados del modelo.

La limitación de la complejidad del modelo depende de saber qué variables para seleccionar incluso antes de empezar la construcción de ésta - y que la consideración conduce a la derecha de nuevo a las personas con conocimiento del dominio. Sus expertos en negocios son la mejor fuente de ideas sobre qué variables tienen un impacto directo sobre el problema de negocio que está tratando de resolver. También, puede decidir empíricamente en qué variables para incluir o excluir.

Utilizar esos conocimientos para garantizar que el conjunto de datos de entrenamiento incluye la mayoría (si no todos) los datos posible que se vaya a utilizar para construir el modelo.

Preparación de los datos pone las cosas buenas

Para garantizar la calidad de los datos de alta como un factor en el éxito del modelo que estamos construyendo, la preparación y limpieza de datos pueden ser de gran ayuda. Cuando se está examinando sus datos, prestar especial atención a

  • Los datos que se recogen de forma automática (por ejemplo, de formularios web)
  • Los datos que no se sometieron a evaluación estricta
  • Los datos recogidos a través de un proceso controlado
  • Datos que pueden tener valores fuera de rango, errores de entrada de datos, y / o valores incorrectos

Los errores comunes que conducen a la temida “basura en basura,” escenario incluyen estas pifias clásicos:

  • Incluyendo más datos de los necesarios
  • La construcción de modelos más complejos de lo necesario
  • Selección de variables predictoras malas o características en su análisis
  • Utilizando los datos que carece de suficiente calidad y la pertinencia
Artículos Relacionados