Fase 3 del modelo de proceso crisp-dm: preparación de datos

Los analistas de datos pasan la mayor parte de su tiempo en la tercera fase del proceso estándar entre la industria de la minería de datos (CRISP-DM) modelo de proceso: preparación de datos. La mayoría de los datos utilizados para la extracción de datos fueron recogidos y conservados originalmente para otros fines y necesita un poco de refinamiento antes de que esté listo para usar para el modelado.

La fase de preparación de datos incluye cinco Tareas. Estos son

  • Selección de los datos

  • limpieza de datos

  • datos que construye

  • La integración de datos

  • Datos de formato

Video: José Supo - Metodología CRISP-DM y la Investigación Científica

El CRISP-DM guía paso a paso no menciona explícitamente los conjuntos de datos como entregables para cada una de las tareas de preparación de datos, pero esos conjuntos de datos tuvieron mejor tejer bien existir y estar debidamente archivada y documentada. Los conjuntos de datos no corresponden uno a uno con las tareas, pero la información sobre los datos utilizados deben ser incluidos en cada informe de entrega.

Tarea: Selección de datos

Ahora se va a decidir qué parte de los datos que usted tiene que realmente se va a utilizar para la minería de datos.

La entrega de esta tarea es la razón fundamental para la inclusión y la exclusión. En ella, se le explique qué datos, y no, ser utilizado para futuros trabajos de minería de datos.

Vas a explicar las razones de la inclusión o exclusión de cada parte de los datos que tiene, basándose en la relevancia de sus objetivos, calidad de datos y cuestiones técnicas - tales como límites al número de campos o filas que sus herramientas pueden manejar, o la idoneidad de los formatos de datos para sus necesidades.

Tarea: Limpieza de datos

Los datos que usted ha elegido utilizar es poco probable que sea perfectamente limpio (sin errores). Usted va a hacer cambios, quizá rastrear las fuentes para hacer correcciones de datos específicos, excluyendo algunos casos o células individuales (elementos de datos), o la sustitución de algunos elementos de datos con valores por defecto o reemplazos seleccionados por una técnica de modelado más sofisticado. Usted puede optar por utilizar sólo un subconjunto de los datos correspondientes a la totalidad o parte de su trabajo de minería de datos.

El entregable para esta tarea es el informe de datos de la limpieza, que documenta, con absoluto detalle, cada decisión y acción utilizan para limpiar sus datos. El informe cubrirá y se refieren a cada problema de calidad de los datos que se identificó en la tarea de verificar la calidad de los datos en la fase técnica de comprensión del proceso. Usted informe también debe abordar el impacto potencial sobre los resultados de las elecciones que han hecho durante la limpieza de datos.

Tarea: La construcción de los datos

Es posible que necesite para derivar algunos nuevos campos (por ejemplo, utilizar la fecha de entrega y la fecha en que un cliente realiza un pedido para calcular el tiempo que el cliente esperaba recibir una orden), los datos agregados, o crear una nueva forma de datos.

Video: PBA Lecture 3 CRISP DM and Data Preprocessing

Entregables para esta tarea incluyen dos informes:

  • Los atributos derivados: Un informe que describe lo que los nuevos campos (columnas) que han construido, cómo lo hizo, y por qué.

  • registros generados: Un informe que describe lo que los nuevos casos (las filas) que han construido, cómo lo hizo, y por qué.

Video: Curso de Analitica Predictiva con RapidMiner y la Metodologia CRISP DM

Aunque las tareas de los datos Los datos y el formato de combinación se enumeran en esta última fase del proceso, no siempre en último lugar, y no pueden llegar a una sola vez. Puede que tenga que hacer un poco de fusión o reformatear temprano en la fase de preparación de datos.

Tarea: La integración de los datos

Sus datos pueden estar ahora en varios conjuntos de datos dispares. Tendrá que combinar todos o algunos de esos conjuntos de datos dispares para estar listo para la fase de modelado.

La entrega de esta tarea son los datos combinados. (Y no estaría de más para documentar cómo se llevó a cabo la fusión.)

El formato de datos: Tarea

Datos a menudo viene a ti en formatos distintos a los que son más convenientes para el modelado. (Los cambios de formato son generalmente impulsados ​​por el diseño de sus herramientas.) Así que convertir los formatos ahora.

Video: Proceso KDD

La entrega de esta tarea es sus datos reformateado. (Y un poco de informe que describe los cambios que ha hecho sería una cosa inteligente a incluir.)

Usted debe terminar la fase de preparación de los datos del proceso de minería de datos con un conjunto de datos listo para el modelado y un informe exhaustivo que describe el conjunto de datos.

Artículos Relacionados