Las limitaciones de los datos en el análisis predictivo

Al igual que con muchos aspectos de cualquier sistema empresarial, los datos son una creación humana - por lo que es apto para tener algunos límites a su facilidad de uso la primera vez que obtenga. He aquí un resumen de algunas limitaciones que es probable encontrar:

  • Los datos podrían estar incompletos. Los valores perdidos, incluso la falta de una sección o una parte sustancial de los datos, podrían limitar su capacidad de uso.

    Por ejemplo, los datos podrían cubrir sólo una o dos condiciones de un conjunto más amplio de que usted está tratando de modelo - como cuando se construyó un modelo para analizar el rendimiento del mercado de valores sólo tiene los datos disponibles de los últimos 5 años, lo que sesga los datos y el modelo hacia la asunción de un mercado alcista.

    En el momento en el mercado experimenta cualquier corrección que conduce a un mercado a la baja, el modelo no se adapta - simplemente porque no fue entrenado y probado con datos que representa un mercado a la baja.

    Asegúrese de que usted está buscando en un plazo de tiempo que le da una imagen completa de las fluctuaciones naturales de su Data- sus datos no deben estar limitados por estacionalidad.

  • Si está utilizando datos de encuestas, tenga en cuenta que la gente no siempre proporcionan información precisa. No todo el mundo va a responder con la verdad sobre (por ejemplo) el número de veces que ejercen - o la cantidad de bebidas alcohólicas que consumen - por semana. La gente puede no ser deshonesto tanto como auto-consciente, pero los datos siguen estando sesgados.

  • Los datos recogidos de diferentes fuentes pueden variar en calidad y formato. Los datos recogidos de diversas fuentes como las encuestas, correos electrónicos, formularios de entrada de datos, y el sitio web de la empresa tendrán diferentes atributos y estructuras. Los datos de diversas fuentes pueden no tener mucha compatibilidad entre los campos de datos. Tales datos requiere mayor procesamiento previo antes de que sea listo análisis. La barra lateral que acompaña proporciona un ejemplo.

Los datos recogidos de varias fuentes pueden tener diferencias de formato, los registros duplicados, e inconsistencias a través de campos de datos fusionado. Prepárese para pasar un largo tiempo de limpieza tales datos - e incluso más tiempo validar su fiabilidad.

Para determinar las limitaciones de los datos, asegúrese de:

Verificar todas las variables que se usarán en el modelo.

  • Evaluar el alcance de los datos, especialmente a través del tiempo, por lo que su modelo puede evitar la trampa de la estacionalidad.

  • Comprobar si hay valores perdidos, identificarlos, y evaluar su impacto en el análisis global.

  • Cuidado con los valores extremos (outliers) y decidir sobre la conveniencia de incluirlos en el análisis.

  • Confirmar que el conjunto de datos de entrenamiento y de prueba es lo suficientemente grande.

  • Asegurarse tipo de datos (enteros, valores decimales, o caracteres, y así sucesivamente) es correcto y establecen los límites superior e inferior de valores posibles.

  • Prestar especial atención a la integración de datos cuando los datos proviene de múltiples fuentes.

  • Asegúrese de entender los orígenes de datos y su impacto en la calidad general de los datos.

    • Elegir un conjunto de datos relevante que es representativa de toda la población.

    • Elegir los parámetros adecuados para su análisis.

    Incluso después de todo este cuidado y atención, no se sorprenda si sus datos todavía necesita procesamiento previo antes de poder analizar con precisión. Preprocesamiento menudo tarda mucho tiempo y esfuerzo, ya que tiene que hacer frente a varias cuestiones relacionadas con los datos originales - estos temas incluyen:

    • Todos los valores perdidos de los datos.

    • Cualquier inconsistencia y / o errores existentes en los datos.

    • Cualquier duplicado o valores atípicos en los datos.

    • Cualquier normalización u otra transformación de los datos.

    • Los datos derivados necesarios para el análisis.

    Artículos Relacionados