Fase 2 del modelo de proceso crisp-dm: la comprensión de datos

Video: Дэн Филлипс: Креативные дома из вторичного материала

En la segunda fase del proceso estándar entre la industria de la minería de datos (CRISP-DM) modelo de proceso, se obtienen los datos y verificar que es apropiado para sus necesidades. Es posible identificar los problemas que le hacen regresar a la comprensión del negocio y revisar su plan. Usted puede incluso descubrir defectos en su comprensión del negocio, otra razón para reconsiderar las metas y planes.

La fase de datos-comprensión incluye cuatro Tareas. Estos son

  • Reuniendo datos

  • Descripción de datos

  • Exploración de datos

  • Comprobación de la calidad de datos

Tarea: La recolección de datos

Usted acaba de establecer objetivos y definido un plan de minería de datos. Cada paso del plan depende de tener los datos correctos. Mejor asegurarse de que usted realmente tiene que los datos!

existe sólo una entrega para esta tarea: el informe inicial de recopilación de datos. En su informe, es necesario verificar que ha adquirido los datos o al menos tenido acceso a los datos, puesto a prueba el proceso de acceso a datos, y verificado que los datos existen. Usted también necesitará para cargar datos en cualquier herramienta que se va a utilizar para la minería de datos para verificar que las herramientas son compatibles con los datos.

Usted puede hacer un montón de trabajo para ensamblar los datos que necesita antes de poder escribir este informe. En primer lugar, va a hacer su plan, de la siguiente manera:

  • Delinear los requisitos de datos: Crear una lista de los tipos de datos necesarios para hacer frente a los objetivos de la minería de datos. Ampliar la lista con detalles como los formatos de rango de tiempo y los datos requeridos.

  • Verificar la disponibilidad de datos: Confirme que existe los datos requeridos, y que se puede usar. Si algunos de los datos que desea no está disponible, decidir cómo va a abordar esta cuestión. Considerar alternativas como

  • Sustituyendo con una fuente de datos alternativa

  • Reducir el alcance del proyecto

  • La recopilación de datos nuevos

  • Definir criterios de selección: Identificar las fuentes específicas de datos (bases de datos, archivos, documentos, etcétera.) Que va a utilizar. Dentro de esas fuentes, especificar los rangos de tablas, campos y de casos que son relevantes para este proyecto.

  • Una vez que haya pasado por estos pasos, en realidad se debe obtener los datos. En esta etapa, importar los datos en la plataforma de extracción de datos que va a utilizar para el proyecto para confirmar que es posible hacerlo y que usted entiende el proceso. En el curso de este ensayo se puede descubrir de software (o hardware) limitaciones que no había anticipado, tales como

    • Límites en el número de casos o campos, o en la cantidad de memoria que se pueden utilizar

    • Incapacidad para leer los formatos de datos de sus fuentes

    • Dificultad para hacer frente a las imperfecciones de los datos (por ejemplo, puede encontrarse con productos que no va a importar o analizar conjuntos de datos incompletos)

    Por último, resumir el proceso de recopilación en un informe. El informe debe describir sus necesidades, y explicar en detalle exactamente los datos que ha recopilado y de qué fuentes. Aquí se confirma que en realidad se ha obtenido la información y que es compatible con su plataforma de extracción de datos. Si ha tenido dificultades, se le explique lo que eran y cómo se los ha abordado (utilizando fuentes alternativas, la revisión de los planes, el cambio de formatos).

    La entrega de esta tarea es sólo un simple informe, pero el trabajo que hay que hacer antes de poder escribir ese informe no será sencillo! acceso a los datos puede ser una de las partes más difíciles y frustrantes del proceso de minería de datos, ocasiona múltiples desafíos técnicos y comerciales.

    Tarea: Descripción de los datos

    Ahora que ya tiene los datos, preparar una descripción general de lo que tiene.

    La entrega de esta tarea es el informe de descripción de datos. En ella, se describe la fuente y los formatos de los datos, el número de casos, el número y las descripciones de los campos, y cualquier otra información general que puede ser importante. También hace una breve evaluación de la idoneidad de los datos para sus objetivos de minería de datos. Por ejemplo, verifique que los datos incluyen los campos que espera y necesita estar allí y casos suficientes para el análisis.

    Tarea: Exploración de datos

    En esta tarea, se examinan los datos de más de cerca. Para cada variable, nos fijamos en el rango de valores y sus distribuciones. Vamos a usar la manipulación de datos simple y técnicas estadísticas básicas para más controles en los datos. la exploración de datos es compatible con varios propósitos:

    • Familiarizarse con los datos.

      Video: Procesador de audio profesional tutorial dbx Drive Rack PA+

    • signos puntuales de problemas de calidad de datos.

    • Sentar las bases para los pasos de preparación de datos.

    La entrega de esta tarea es el informe de exploración de datos. Es el lugar para documentar cualquier hipótesis o conclusiones iniciales que se han desarrollado durante la exploración de datos. Este informe debe incluir una descripción más detallada de los datos que el informe de descripción de datos, incluyendo distribuciones, resúmenes y cualquier signo de problemas de calidad de datos.

    Tarea: Comprobación de la calidad de datos

    Usted tiene los datos y que ha examinado, y ahora hay que determinar si es lo suficientemente bueno para apoyar sus objetivos. A menudo se tiene algún problema de calidad para tratar y aún así ser capaz de seguir adelante, pero a veces la calidad de los datos es tan pobre que no puede apoyar su plan y que tendrá que buscar alternativas. Algunos de los peores problemas de datos incluiría

    • Los datos que necesita no existe. (¿Nunca existe, o se descarta que? Se puede recoger y guardar para uso futuro estos datos?)

    • Existe, pero no se puede tenerlo. (Se puede superar esta restricción?)

    • A encontrar problemas graves de calidad de datos (un montón de valores que faltan o incorrectas, que no se pueden corregir).

    El entregable para esta tarea es el informe de calidad de datos. Esto resume los datos que usted tiene, problemas menores y mayores de calidad que se han encontrado, y las posibles soluciones para los problemas de calidad o alternativas (como el uso de un recurso de datos alternativo). Si se enfrentan a cualquier problema serio de calidad de datos y no se puede identificar una solución adecuada, puede que tenga que recomendar metas o planes reconsiderar.

    Artículos Relacionados